1、代码

def clean_text(text, remove_stopwords=False):
"""
数据清洗
"""
text = BeautifulSoup(text, 'html.parser').get_text()
text = re.sub(r'[^a-zA-Z]', ' ', text)
words = text.lower().split()
if remove_stopwords:
words = [w for w in words if w not in eng_stopwords]
return words def to_review_vector(review):
"""
获取词向量
"""
global word_vec review = clean_text(review, remove_stopwords=True)
#print (review)
#words = nltk.word_tokenize(review)
word_vec = np.zeros((1,300))
for word in review:
#word_vec = np.zeros((1,300))
if word in model:
word_vec += np.array([model[word]])
#print (word_vec.mean(axis = 0))
return pd.Series(word_vec.mean(axis = 0))

最新文章

  1. Lua的string和string库总结
  2. 理解HTTP协议
  3. IIS ARR 负载均衡
  4. C#利用WIN32实现按键注册
  5. ImFire即时通讯系统构建(需求)
  6. 校赛E题递归形式
  7. 分享我收集的引擎、图形学、WebGL方面的电子资料
  8. Axure简介
  9. ADO.NET的五个主要对象
  10. FPGA位宽的转换和定义
  11. 《JavaScript高级程序设计》笔记(2):位操作符
  12. ORACLE STUDY NOTES 01
  13. 时间类处理<1>
  14. 安卓系统浏览器中select下拉按钮无法弹出选择面板奇怪问题解决
  15. dedecms 的这个dede:arclist里怎么调用全局变量?
  16. Jmeter自定义Java请求,继承AbstractJavaSamplerClient
  17. 前端分辨pc和移动端导入不同css
  18. 给你的Linux系统上点stress【转】
  19. Redis密码设置与访问限制
  20. RPC好,还是RESTful好?

热门文章

  1. cv2.videocapture()失败,无法读取视频
  2. (二十四)Ubuntu16.04配置ADB调试环境
  3. java面试知识记录
  4. PEP8规范 Python
  5. Zookeeper与Kafka Kafka
  6. HTML5新特性——1 HTML5音频
  7. Java冒泡排序,二分查找法
  8. 【python爬虫】 爬云音乐我和xxx共同听过的歌曲
  9. vue04 总结
  10. 03 Vue -课程详细(传参id)、图片显示、推荐课程(主动重定向)