one-hot映射时,如何选取TOPN作为每一个词承载的word2vec的信息?

我们已经知道,对于这种例子:

怎么绑定手机号?

怎么关联手机号?

他们的相似度取决于绑定和关联这两个词如何相似。

#取top2词的相似度
vec_i = np.array([1, 0.73, 0.71, 0])
vec_j = np.array([0.71, 0.73, 1, 0.71]) dist = linalg.norm(vec_i - vec_j)
sim = 1.0 / (1.0 + dist) print(sim)
0.549468959038795 #取top1词的相似度
vec_i = np.array([ 1, 0.73, 0 ])
vec_j = np.array([ 0.71, 0 , 1 ] )
dist = linalg.norm(vec_i - vec_j)
sim = 1.0 / (1.0 + dist) print(sim)
0.44021580019602347 #取top3词的相似度
vec_i = np.array([ 1, 0.73, 0.71, 0.69, 0])
vec_j = np.array([0.71, 0.668, 1, 0, 0.71])
dist = linalg.norm(vec_i - vec_j)
sim = 1.0 / (1.0 + dist) print(sim)
0.48229348920534326 在这种情况下,选取TOP2相似度是最高的,可以很好的近似匹配。思想是,在取的TOPN尽可能少的情况下,让TOPN里,相同的词出现的尽可能多,有助于提高相似度。可是那对于不相似的句子呢? 我们应该让相似的句子,相似度更高,不相似的句子,相似度更低,拉开差距。 方案一:按照原来的TOP3+similarity 怎么 怎样 如何 怎么样 支付 付款 微信支付 收款 打印 打 印 打出
怎么支付 [ 1, 0.85, 0.83, 0.70, 1, 0.77, 0.72, 0.67, 0, 0, 0, 0]
如何支付 [0.83, 0.87, 1, 0.63, 1, 0.77, 0.72, 0.67, 0, 0, 0, 0]
如何打印 [0.83, 0.87, 1, 0.63, 0, 0, 0, 0, 1, 0.78, 0.69, 0.69] 怎么支付-如何支付=0.7992345674654612
如何支付-如何打印=0.3064740995892663
怎么支付-如何打印=0.3051741090737826 方案二:如果两个句子之间,映射完之后有相同词的,相似度保留,如果没有相同词,那么就令那个词为1,这样可以有效的拉开相似度句子,和不相似的句子之间的相似度差距。
              怎么     怎样     如何    怎么样    支付    付款    微信支付     收款     打印     打    印    打出
怎么支付      [ 1,     0.85,   0.83,   0.70,    1,     0.77,  0.72,      0.67,    0,      0,    0,    0]
如何支付      [0.83,    0.87,    1,    0.63,    0,       0,     0,        0,      1,      1,     1,   1]
(这是第一对)
               怎么     怎样     如何    怎么样    支付    付款    微信支付     收款     打印     打    印    打出

如何支付        [0.83,    0.87,    1,    0.63,     1,       1,     1,        1,    0,      0,    0,    0]
如何打印        [0.83,    0.87,    1,    0.63,    0,        0,     0,        0,     1,      1,    1,   1]

             怎么     怎样     如何    怎么样    支付    付款    微信支付     收款     打印     打    印    打出

怎么支付      [ 1,     0.85,   0.83,   0.70,    1,     0.77,  0.72,      0.67,    0,      0,    0,    0]
如何打印      [0.83,    0.87,    1,    0.63,    0,        0,     0,        0,     1,    0.78,  0.69,   0.69]

怎么支付-如何支付=0.7992345674654612
如何支付-如何打印=0.2612038749637414
怎么支付-如何打印=0.26044652136360963
结果:明显的降低了不同意思的句子之间的差距,对于不同的句子之间,进行了相似度对比增强。对于原本就很相似的句子,影响不大。

不过如果我们要这么做,需要多做一步,就是对于已经生成的两个句子向量做比对,将没有同时出现的词,做1值处理。
而且具体效果,需要我们实际测试才知道。

最新文章

  1. C++基础——函数指针 函数指针数组
  2. 解析工具Goson
  3. 第06篇 MyEclipse 2016 安装/破解
  4. Newtonsoft.Json随手记
  5. 使用SqlBulkCopy批量插入数据
  6. IIS6,IIS7中查看w3wp进程
  7. Windows平台下搭建MySQL数据库
  8. 【NOIP2016】【LCA】【树上差分】【史诗级难度】天天爱跑步
  9. AleNet模型笔记
  10. UILTView经典知识点练习
  11. html的基础属性
  12. bug狩猎
  13. Python-SMTP发送邮件(HTML、图片、附件)
  14. datatables数据渲染自定义
  15. 【2017-04-25】winform公共控件、菜单和工具栏
  16. Newcoder Metropolis(多源最短路 + Dijkstra堆优化)题解
  17. java 两个日期之间的天数
  18. mysql如何出查出最近7天,最近30天,最近n天的记录?
  19. codeforces 877b
  20. BZOJ NOIP提高组十连测第一场

热门文章

  1. 英语语言能力挑战游戏: anagrams & palindromes
  2. perl 遍历指定目录下的所有文件,替换指定文本内容,返回受影响的文件路径
  3. ssm文件配置
  4. .NET学习从入门到精通100+源代码(申明:来源于网络)
  5. thymeleaf 标签的使用
  6. docker swarm:执行 service update 过程中服务短暂不能访问的问题
  7. windows Git Bash 无法运行python解决方法
  8. selec2组件使用方法
  9. sqlserver2014两台不同服务器上数据库同步
  10. 【PyQt5-Qt Designer】PyQt5+pyecharts 实现GUI界面的数据可视化展示