Python 绘制词云
2024-08-23 21:46:42
文本内容:data(包含很多条文本)
1、分词:
import jieba
data_cut = data.apply(jieba.lcut)
2、去除停用词:
stoplist.txt:链接:https://pan.baidu.com/s/1lN1J8aUFOwqXpYMzuqVA7w 提取码:nk7z
with open(r'D:\数据文件\stoplist.txt', encoding='utf-8') as f:
txt = f.read()
stop = txt.split()
stop = stop + [' '] #把空格加进去
data_after = data_cut.apply(
lambda x : [i for i in x if i not in stop]
)
3、
from tkinter import _flatten
tmp = pd.Series(_flatten(list(data_after))) #把二维变成一维
num = tmp.value_counts()
4、绘制
from wordcloud import WordCloud
import matplotlib.pyplot as plt pic = plt.imread(r'D:\数据文件\aixin.jpg')
wc = WordCloud(
background_color='white',
mask=pic,
font_path=r'C:/Windows/Fonts/simsun.ttc')
wc2 = wc.fit_words(num)
plt.imshow(wc2)
plt.axis('off')
plt.show()
最新文章
- SharePoint 2013 图文开发系列之可视化WebPart
- Educational Codeforces Round 12 E Beautiful Subarrays
- asp.net 运行时, 报控件不存在
- 黑马程序员-------.net基础知识五
- C++:抽象基类和纯虚函数的理解
- [整理]Breakpoint on arbitrary selector
- Jquery文本框值改变事件兼容性
- hdu 1020
- 皓轩的jquery mobile之路(二)
- Java Script 字符串操作
- udp和tcp
- selenium.common.exceptions.WebDriverException: Message: 'phantomjs' executab
- git基础介绍
- BZOJ1087 [SCOI2005]互不侵犯King 状态压缩动态规划
- Step2:SQL Server 复制事务发布
- VC++ 利用PDB和dump文件定位问题并进行调试
- 记开发个人图书收藏清单小程序开发(十)DB开发——新增图书信息
- 编程之美 set 10 队列中取最大值操作问题
- 实用的chrome插件
- 要back的题目 先立一个flag