https://www.leiphone.com/news/201706/eV8j3Nu8SMqGBnQB.html

https://blog.csdn.net/dn_mug/article/details/69852740

word2vec是如何得到词向量的?

skip-gram中,训练样本的形式是(input word, output word),其中output word是input word的上下文。为了减少模型噪音并加速训练速度,我们在构造batch之前要对样本进行采样,剔除停用词等噪音因素。

神经网络像是一个黑盒子,这其中的概念很难理解,此博主对词向量训练的个人理解很到位:

对于每个词s,训练数据对应的标记是另一个词t,训练其实是想找到一种映射关系,让s映射到t。但很显然我们不是希望找到一个线性函数,使得给定s一定能得到t,我们希望的是能够通过s得到一类词T,包含t。对于T中的每个t,由于在s上下文中出现的频次不同,自然能得到一个概率,频次越高说明s与t相关性越高。

对于词向量,或者说参数矩阵W,可以认为是一个将词映射到语义空间的桥梁,s与t相关性越高,则认为其在语义空间中越近,那么对应的桥梁也越靠近。如果用向量来理解的话就是向量之前的夹角越小,我们使用向量来表示这个词的信息,重要的是得到了语义信息。在实际应用中,生成一段文本,我们可以判断词与词的向量之间相似度,如果过低则就需要怀疑是否正确了。

最新文章

  1. [HTML/HTML5]2 CSS样式表设置
  2. mysql中的游标使用案例
  3. oracle处理考勤时间,拆分考勤时间段的sql语句
  4. jQuery 工具类库集锦
  5. 自适应滤波器(Adaptive Filter)
  6. EntityFramework:状态变化与方法的关系
  7. EditPlus配置C环境
  8. iReport使用教程
  9. PHP中的面向对象OOP中的魔术方法
  10. hive(II)--sql考查的高频问题
  11. leetcode:程序员面试技巧
  12. 并发库应用之十 & 多线程数据交换Exchanger应用
  13. 树莓派播放视频的播放器omxplayer
  14. 简单SQL注入
  15. python基础-变量运算符(3)
  16. LeetCode算法题-Best Time to Buy and Sell Stock
  17. java web 测试
  18. [No000017C]改善C#程序的建议5:引用类型赋值为null与加速垃圾回收
  19. C和C指针小记(六)-基本声明、指针声明、typedef 、常量、作用域、链接属性、存储类型、static
  20. 【Excel】绘图案例_常见复合图:簇状图+堆积图+折线图

热门文章

  1. myeclipse An internal error occurred during: "Initialize metrics".
  2. Juju solutions for OpenStack
  3. 【LOJ3099】[SNOI2019]积木(搜索)
  4. 单点登录(SSO)解决方案介绍
  5. 24 AdminLTE 基础入门
  6. 18 SpringMVC 文件上传和异常处理
  7. 通过werkzeug了解wsgi
  8. 全能中间件v19.5.7 正式版发布
  9. C语言的变参列表 va_list
  10. Tr/ee AtCoder - 4433 (构造)