python 利用jieba库词频统计
2024-08-26 07:55:40
1 #统计《三国志》里人物的出现次数
2
3 import jieba
4 text = open('threekingdoms.txt','r',encoding='utf-8').read()
5 excludes = {'将军','却说','二人','不能','如此','荆州','不可','商议','如何','军士','左右','主公','引兵','次日','大喜','军马',
6 '天下','东吴','于是'}
7 #返回列表类型的分词结果
8 words = jieba.lcut(text)
9 #通过字典映射,统计次数
10 counts = {}
11 for word in words:
12 if len(word) == 1:
13 continue
14 elif word == '孔明曰' or word == '孔明':
15 rword = '诸葛亮'
16 elif word == '关公' or word == '云长':
17 rword = '关羽'
18 elif word == '玄德' or word == '玄德曰':
19 rword = '刘备'
20 elif word == '孟德' or word == '丞相':
21 rword = '曹操'
22 else:
23 rword = word
24 counts[rword] = counts.get(rword,0) + 1
25 for word in excludes:
26 del counts[word]
27 items = list(counts.items())
28 #排序,从大到小
29 items.sort(key=lambda x:x[1],reverse=True)
30 for i in range(5):
31 word,count = items[i]
32 print('{0:<10}{1:>5}'.format(word,count))
最新文章
- WPF实现物理效果 拉一个小球
- Java基础之打印万年历
- XE8 for iOS 状态栏的几种效果
- PHP输出一个指定范围内的随机数
- Object-c 控制语句
- 用Xshell访问 虚拟机里的kali
- unity, 在OnDisable里一定要将Cloth禁掉
- LeetCode Triangle 三角形(最短路)
- 《CSS3使用指南》读书笔记
- php 接口 implements 使用
- UVA - 524 Prime Ring Problem(dfs回溯法)
- UESTC_秋实大哥与快餐店 2015 UESTC Training for Data Structures<;Problem C>;
- JS 匿名函数 自执行
- EALayout 实践
- javascript中的事件类型
- C# Vs2017启动调试,debug或者release调试状态闪一下程序就独立运行了
- sublime 3插件推荐
- Chronic sleep loss cannot be cured that easily
- 【BZOJ1864】三色二叉树(动态规划)
- [C语言] 数据结构概述