深度学习之NLP获取词向量
2024-09-03 08:01:51
1、代码
def clean_text(text, remove_stopwords=False):
"""
数据清洗
"""
text = BeautifulSoup(text, 'html.parser').get_text()
text = re.sub(r'[^a-zA-Z]', ' ', text)
words = text.lower().split()
if remove_stopwords:
words = [w for w in words if w not in eng_stopwords]
return words def to_review_vector(review):
"""
获取词向量
"""
global word_vec review = clean_text(review, remove_stopwords=True)
#print (review)
#words = nltk.word_tokenize(review)
word_vec = np.zeros((1,300))
for word in review:
#word_vec = np.zeros((1,300))
if word in model:
word_vec += np.array([model[word]])
#print (word_vec.mean(axis = 0))
return pd.Series(word_vec.mean(axis = 0))
最新文章
- Lua的string和string库总结
- 理解HTTP协议
- IIS ARR 负载均衡
- C#利用WIN32实现按键注册
- ImFire即时通讯系统构建(需求)
- 校赛E题递归形式
- 分享我收集的引擎、图形学、WebGL方面的电子资料
- Axure简介
- ADO.NET的五个主要对象
- FPGA位宽的转换和定义
- 《JavaScript高级程序设计》笔记(2):位操作符
- ORACLE STUDY NOTES 01
- 时间类处理<;1>;
- 安卓系统浏览器中select下拉按钮无法弹出选择面板奇怪问题解决
- dedecms 的这个dede:arclist里怎么调用全局变量?
- Jmeter自定义Java请求,继承AbstractJavaSamplerClient
- 前端分辨pc和移动端导入不同css
- 给你的Linux系统上点stress【转】
- Redis密码设置与访问限制
- RPC好,还是RESTful好?