gensim 是处理文本的很强大的工具包,基于python环境下:

1.gensim可以做什么?

它可以完成的任务,参加gensim 主页API中给出的介绍,链接如下:

http://radimrehurek.com/gensim/apiref.html

2.word2vec的使用

其中学习词向量的方法可利用,word2vec,具体使用我爱自然语言中介绍的很清楚,如下链接:

http://ju.outofmemory.cn/entry/80023

3.doc2vec/paragraph2vec的使用方法

学习文档向量,doc2vec(也就是官方网站API中的paragraph2vec)使用方法,中文资料较少,RaRe Machine Learning Blog英文博客讲解的比较详细,链接如下:

http://rare-technologies.com/doc2vec-tutorial/

因为要做文档向量的学习,我也写了个学习文档向量的例子,仅供参考,代码如下:

 import gensim, logging
import os logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level = logging.INFO)
sentences = gensim.models.doc2vec.TaggedLineDocument('review_pure_text.txt')
model = gensim.models.Doc2Vec(sentences, size = 100, window = 5)
model.save('review_pure_text_model.txt')
print len(model.docvecs)
out = file('review_pure_text_vector.txt', 'w')
for idx, docvec in enumerate(model.docvecs):
for value in docvec:
out.write(str(value) + ' ')
out.write('\n')
print idx
print docvec
out.close()

输入文件Tweets_id_text.txt的格式就是每个doc 对应内容的分词,空格隔开,每个doc是一行

用TaggedLineDocument 实现,每个doc默认编号

博文doc2vec/paragraph2vec使用说明(二)中介绍 带多个标签的文档向量训练方法。

最新文章

  1. 迷你MVVM框架avalon在兼容旧式IE做的努力
  2. php 7.0 安装以及老版本php删除
  3. javascript类型系统——Math对象
  4. 删除MSSQL数据库中所有表
  5. IOS开发之SWIFT进阶部分
  6. jQuery的图像裁剪插件Jcrop
  7. The finnacial statements,taxes and cash flow
  8. Matlab中sortrows函数解析
  9. Unity干中学——如何实现游戏截图?
  10. 配置一个servlet程序
  11. SqlServer2000下实现行列转换
  12. github 预览html
  13. week4_motion_of_ball_1(小球运动)——改进
  14. Python中is和==的区别的
  15. mysql 远程连接不上 %用户已经添加了
  16. css左侧固定宽度,右侧自适应的几种实现方法
  17. Kubenetes 资源清单定义入门
  18. 编译 pcre - 开源的正则表达式(库)
  19. 老牌阅读器nook2刷机整理
  20. 基于tcpdump的Android智能移动终端数据包捕获完整解决方案

热门文章

  1. [原]openstack-kilo--issue(七):虚拟机怎么通外网,外网怎么ping通虚拟机
  2. nginx有关.htaccess小结
  3. HTTP协议小结
  4. html之div拖拽,html5拖拽
  5. [转]新型智慧城市总体架构 华为 新ICT 一云二网三平台
  6. 150929-拖延高于懒-HTML(End)
  7. Solr初始化源码分析-Solr初始化与启动
  8. 【Python数据分析】从Web收集数据小实例
  9. 文件上传&文件下载
  10. javascript里面this机制的几个例子