Efficient Estimation of Word Representations in Vector Space (2013)论文要点
2024-09-01 20:20:59
论文链接:https://arxiv.org/pdf/1301.3781.pdf
参考:
A Neural Probabilistic Language Model (2003)论文要点 https://www.cnblogs.com/yaoyaohust/p/11310774.html
- 线性规律linear regularities: "king - man = queen - woman"
- 语法和语义规律syntactic and semantic regularities
1986年Hinton等人提出分布式表示。
典型的训练:
3-50轮,十亿级别样本,滑动窗口宽度N=10,向量维度D=50-200,隐层宽度H=500-1000,词典维度|V|=10^6
复杂度主要取决于隐层到输出层,即H*|V|
hierarchical softmax,输出层Huffman编码,计算复杂度|V| -> log|V|
考虑去掉隐层。
两种方式CBOW和Skip-gram
更多数据,更高维向量:
Google News:60亿tokens,100万常用词,3万极常用词
3轮迭代,学习率0.025且随时间衰减。
最新文章
- manachor
- 【转】libevent和基于libevent的网络编程
- js基本数据类型和typeof
- HTML DOM Document
- mysql报错 ";code";:";08S01";,";msg";:";SQLSTATE
- linq to xml 基本操作
- perl 监控mysql 事务和锁
- Windows 已在 DImageProcess.exe 中触发一个断点。
- 关于 plsql连接oracle数据库的问题
- 浙大pat 1031题解
- Maven项目搭建(一):Maven初体验
- 【原】无脑操作:IDEA + maven + Shiro + SpringBoot + JPA + Thymeleaf实现基础认证权限
- WebApi返回类型设置为json的三种方法
- 认识浏览器请求头User-Agent
- Kafka基础入门
- 李清华 201772020113《面向对象程序设计(java)》第十四周学习总结
- Python3基础系列-程序模板及代码本质
- 《Linux内核原理与分析》第六周作业
- CSS3 @keyframes 规则以及animation介绍和各种动画样式说明
- LAMP 环境下添加多个虚拟主机(网站)
热门文章
- 基于axis的WebService的案例
- clientX和clientY属性需要注意的地方
- 使用PhantomJS
- 使用robotframework做接口测试三——保持登录状态
- swoole前置基础知识1——1.1多进程/多线程的概念
- KCP - A Fast and Reliable ARQ Protocol
- elasticsearch 7.x 如何满足mysql中的模糊查询功能(like)
- AIX弱口令解密
- [转帖]英特尔的 ME 或侵犯 Minix3 的自由软件许可证
- ASP.NET Core中使用EF Core(MySql)Database First