一.jieba库的使用与说明

1.jieba库基本介绍

jieba库是优秀的中文分词第三方库

-中文文本需要通过分词获得单个的词语
         - jieba是优秀的中文分词第三方库,需要额外安装

- jieba库提供三种分词模式,最简单只需掌握一个函数

2.jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

- 精确模式:把文本精确的切分开,不存在冗余单词
         - 全模式:把文本中所有可能的词语都扫描出来,有冗余

- 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

3.jieba库的利用实例显示

4.利用jieba库统计三国演义的人物出场次数

(1)代码如下

import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何",
"主公","军马","左右",}
txt = open("./三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == :
continue
elif word == "诸葛亮" or word == "孔明曰":
rword = "孔明"
elif word == "关公" or word == "云长":
rword = "关羽"
elif word == "玄德" or word == "玄德曰":
rword = "刘备"
elif word == "孟德" or word == "丞相":
rword = "曹操"
else:
rword = word
counts[rword] = counts.get(rword,) +
for word in excludes:
del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[], reverse=True)
for i in range():
word, count = items[i]
print ("{0:<10}{1:>5}".format(word, count))

(2)结果显示如下:

二、利用好看的词元

1.Python的词元图的生成

(1)安装库

pip install jieba wordcloud matplotlib

(2)准备

  • txt文本
  • 字体(simhei.ttf)
  • 词云背景图片

由上面的三国演义的文本txt可以生成如下图形:

Python jieba和词元的利用到此结束....................

最新文章

  1. H3 BPM让天下没有难用的流程之功能介绍
  2. Java EE之一个表单两个按钮响应不同界面(登录与注册)
  3. 多线程下的for循环问题
  4. 在SqlServer查询分析器里 访问远程数据库 进行数据查询更新等操作(openrowset)
  5. CentOS 6.6 (Desktop)部署Apache、MySQL以及Eclipse Luna等记录
  6. VMware Workstation 10.0.4.2249910 CN
  7. 关于MySql全文索引
  8. Android IOS WebRTC 音视频开发总结(四五)-- ORTC背后的真相
  9. wget下载FTP的文件
  10. Windows2008安装IIS方法
  11. Spring【AOP模块】就是这么简单
  12. Redis登录密码设置
  13. C++中几个输入函数的用法和区别(cin、cin.get()、cin.getline()、getline()、gets()、getchar())
  14. Python在终端通过pip安装好包以后,在Pycharm中依然无法使用的解决办法
  15. LeetCode--030--串联所有单词的字串(java)
  16. Hibernate search使用示例(基础小结-注解方式)
  17. Vivado Design Suite用户指南之约束的使用第二部分(约束方法论)
  18. 使用CGlib出现java.lang.NoClassDefFoundError: org/objectweb/asm/Type异常
  19. 对word2vec的理解及资料整理
  20. luogu1073 最优贸易 (tarjan+dp)

热门文章

  1. python之路:模块初识
  2. .net Cache 需要注意的地方
  3. vscode垂直选中列选中
  4. Install Oracle Tuxedo in silent mode
  5. Spring再接触 Scope范围
  6. java使用c3p0连接mysql,写中文数据乱码的问题
  7. ftp的主动模式和被动模式的配置和区别
  8. day46 前端基础HTML5+CSS3
  9. wpf改变网格字体颜色
  10. Linux /etc/hosts文件