词向量实践(gensim)
2024-10-20 05:31:05
词向量训练步骤:
- 分词并去停用词
- 词频过滤
- 训练
项目完整地址:https://github.com/cyandn/practice/tree/master/Word2Vec
gensim中Word2Vec参数解释:
主要参数介绍如下:
- sentences:我们要分析的语料,可以是一个列表,或者从文件中遍历读出(word2vec.LineSentence(filename) )。
- size:词向量的维度,默认值是100。这个维度的取值一般与我们的语料的大小相关,如果是不大的语料,比如小于100M的文本语料,则使用默认值一般就可以了。如果是超大的语料,建议增大维度。
- window:即词向量上下文最大距离,window越大,则和某一词较远的词也会产生上下文关系。默认值为5,在实际使用中,可以根据实际的需求来动态调整这个window的大小。如果是小语料则这个值可以设的更小。对于一般的语料这个值推荐在[5;10]之间。
- sg:即我们的word2vec两个模型的选择了。如果是0, 则是CBOW模型;是1则是Skip-Gram模型;默认是0即CBOW模型。
- hs:即我们的word2vec两个解法的选择了。如果是0, 则是Negative Sampling;是1的话并且负采样个数negative大于0, 则是Hierarchical Softmax。默认是0即Negative Sampling。
- negative:即使用Negative Sampling时负采样的个数,默认是5。推荐在[3,10]之间。
- cbow_mean:仅用于CBOW在做投影的时候,为0,则算法中的xw为上下文的词向量之和,为1则为上下文的词向量的平均值。
- min_count:需要计算词向量的最小词频。这个值可以去掉一些很生僻的低频词,默认是5。如果是小语料,可以调低这个值。
- iter:随机梯度下降法中迭代的最大次数,默认是5。对于大语料,可以增大这个值。
- alpha:在随机梯度下降法中迭代的初始步长。算法原理篇中标记为η,默认是0.025。
- min_alpha: 由于算法支持在迭代的过程中逐渐减小步长,min_alpha给出了最小的迭代步。
存在的问题:
感觉 stop_words.txt 停用词去的有点狠。。
最新文章
- Let’s encrypt 计划为网站提供免费的基本 SSL 证书,以加速互联网从 HTTP 向 HTTPS 过渡。
- C#五层架构
- hdu 3461 Code Lock(并查集)2010 ACM-ICPC Multi-University Training Contest(3)
- 两个UIView添加同一个手势只有最后一个有用
- Telerik RadGridView 右键菜单如何设置?
- ffmpeg之yuv2rgb_c_24_rgb
- 使用val()方法设置表单中的默认选中项
- python初探-数据类型
- 日常之学习CSS3变形和js函数指针
- Unity3d_GUI_2__(能量条的学习)
- NPOI:创建Workbook和Sheet
- linux命令基础三
- 谷歌浏览器内核Cef js代码整理(一)
- python_paramiko
- java 代码的良好习惯
- Spring对象依赖关系处理
- python列表中的pop
- 深度认识 Sharding-JDBC:做最轻量级的数据库中间层
- ionic调用数据接口(post、解决 payload 问题)
- 记一次 Docker swarm - overlay network access error