word embedding
具体含义:词的实数向量化表示,可以通过向量相似性度量语义相似性,相似性原理是上下文的一致性
Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function,通俗的翻译是单词嵌入,把X所属空间的单词映射为到Y空间的多维向量,word embedding,就是找到一个映射或者函数,生成在一个新的空间上的表达。
分布式表示 distributed representation
分布式表示的理论基础:上下文相似的词,语义也相似  Harris 在 1954 年提出的分布假说( distributional hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似。
基于矩阵:矩阵的每一行表示词的上下文分布,上下文相似,语义相似。矩阵向量的空间距离即代表了相似性
基于神经网络:通过神经网络对上下文,以及上下文与目标词之间的关系进行建模
词向量如何生成:
用一个神经网络来训练。一个训练的样本输入是一个词和另外一个词的one-hot形式,而样本的标签是这两个词的关系,如果他们两经常出现在一起(根据skip-gram方法),则标签为1,反之为0。训练得到的网络中的权重就是词向量。网络倒数第二层的权重。
 

词向量表示

离散表示:one_hot 方法、TF-IDF方法,N-gram方法,从维度,权重,语序上构建词向量,但随着预料增多,都会出现维度膨胀,数据稀疏,计算量大的问题。

分布式表示:word2vec ,wordvec是词向量的一种,wordvec包含cbow和skip_gram

 



最新文章

  1. 安装wampserver遇到,无法启动此程序,丢失MSVCR110.dll
  2. css(二)
  3. Leetcode Substring with Concatenation of All Words
  4. python 后台爆破工具
  5. {POJ}{3897}{Maze Stretching}{二分答案+BFS}
  6. Spark MLib 基本统计汇总 2
  7. zabbix 3.0.4 监控windows 服务
  8. supersr--class_copyIvarList和class_copyPropertyList的区别
  9. Android那些事儿之LBS定位,实践测试lbs
  10. poj crane
  11. Apache主站点配置
  12. 设置Intellij IDEA 提示出未保存的*星号
  13. Linux探索之路1---CentOS入坑笔记整理
  14. Neo4j安装后的密码修改
  15. java多线程中的三种特性
  16. Pagedown learning notes
  17. May 24. 2018 Week 21st Thursday
  18. elasticsearch(6.2.3)安装Head插件
  19. SOC四大弱点分析
  20. 利用JSON将Map转换为类对象

热门文章

  1. RocketMQ事务性消息
  2. ionic node-sass安装或编译失败:MSBUILD : error MSB3428: 未能加载 Visual C++ 组件“VCBuild.exe”
  3. Mach-O简介及实际应用
  4. mysql导入.csv文件出错
  5. ANdroid手机屏幕反横向等参数设定
  6. idea 右键没有class文件的问题,,
  7. C++32位和64位常见类型的大小
  8. js类数组转数组的方法(ArrayLike)
  9. STL lower_bound upper_bound 用法
  10. RabbitMQ 交换器、持久化