文本内容:data(包含很多条文本)

1、分词:

import jieba
data_cut = data.apply(jieba.lcut)

2、去除停用词:

stoplist.txt:链接:https://pan.baidu.com/s/1lN1J8aUFOwqXpYMzuqVA7w  提取码:nk7z

with open(r'D:\数据文件\stoplist.txt', encoding='utf-8') as f:
txt = f.read()
stop = txt.split()
stop = stop + [' '] #把空格加进去
data_after = data_cut.apply(
lambda x : [i for i in x if i not in stop]
)

3、

from tkinter import _flatten
tmp = pd.Series(_flatten(list(data_after))) #把二维变成一维
num = tmp.value_counts()

4、绘制

from wordcloud import WordCloud
import matplotlib.pyplot as plt pic = plt.imread(r'D:\数据文件\aixin.jpg')
wc = WordCloud(
background_color='white',
mask=pic,
font_path=r'C:/Windows/Fonts/simsun.ttc')
wc2 = wc.fit_words(num)
plt.imshow(wc2)
plt.axis('off')
plt.show()

最新文章

  1. SharePoint 2013 图文开发系列之可视化WebPart
  2. Educational Codeforces Round 12 E Beautiful Subarrays
  3. asp.net 运行时, 报控件不存在
  4. 黑马程序员-------.net基础知识五
  5. C++:抽象基类和纯虚函数的理解
  6. [整理]Breakpoint on arbitrary selector
  7. Jquery文本框值改变事件兼容性
  8. hdu 1020
  9. 皓轩的jquery mobile之路(二)
  10. Java Script 字符串操作
  11. udp和tcp
  12. selenium.common.exceptions.WebDriverException: Message: 'phantomjs' executab
  13. git基础介绍
  14. BZOJ1087 [SCOI2005]互不侵犯King 状态压缩动态规划
  15. Step2:SQL Server 复制事务发布
  16. VC++ 利用PDB和dump文件定位问题并进行调试
  17. 记开发个人图书收藏清单小程序开发(十)DB开发——新增图书信息
  18. 编程之美 set 10 队列中取最大值操作问题
  19. 实用的chrome插件
  20. 要back的题目 先立一个flag

热门文章

  1. Linux进阶之TCP三次握手四次挥手
  2. IDEA 全局搜索 Jar 包中源码内容
  3. 使用mybatis逆向工程Example类,(或者)or条件查询(Day_47)
  4. Python发送SMTP邮件指南
  5. GO语言基础---值传递与引用传递
  6. 深度学习编译与优化Deep Learning Compiler and Optimizer
  7. Deformable 可变形的DETR
  8. TensorFlow分布式在Amazon AWS上运行
  9. Caffe实现概述
  10. Tensor Core技术解析(上)