19-python 自己建立词库并实现文章汉语词频统计
2024-09-29 04:16:28
首先在网上下载一个汉语词典的txt文件, 汉语词典
1.用正则去掉词语的解释,即提取出所有汉语词语;
import re
def getHanYuCi(st):
p = re.compile(r'【.*?】') # 挑选出: [汉字]
rt = p.findall(st) p = re.compile(r'[\u4E00-\u9FA5]+') # 去掉【】:只保留汉字; *:前一个字符0次或无限次; +:表示1次或无限制
rt = p.findall(str(rt))
#print(str[0:1000])
return rt def test_1():
path = r'C:\Users\sss\Desktop\hanyucidian.txt'
with open(path, 'rb') as f:
st = f.read().decode('gb18030') rt = getHanYuCi(st)
dict = {}
for x in rt:
dict[x] = 0
#print('+++++++++++++')
#print(len(rt))
#print(rt) # 由于rt特别大,直接print不会读出任何东西,但只读某一段时可以读出来
#print(rt[1:10])
path = r'C:\Users\sss\Desktop\hanyu_ci.txt'
with open(path, 'w') as f:
f.write(str(dict)) test_1()
最新文章
- Zabbix监控disk performance
- linux eclipse c++
- jquery内容选择器(匹配包含指定选择器的元素)
- SQL 实现,如果存在就更新,如果不存在就添加
- 01.Editplus+Lua配置
- 前端JS模版库kino.razor - 原理流程分析 - 改进版轮子RazorJs
- Simulation of empirical Bayesian methods (using baseball statistics)
- [译] 所有你需要知道的关于完全理解 Node.js 事件循环及其度量
- 搭建dnsmasq服务器,局域网内部解析
- day4 liaoxuefeng---高级特性
- 使用find命令查找文件
- cmake中添加-fPIC编译选项方法
- Dilated Convolutions 空洞卷积
- go get 碰壁怎么办?
- Linux下开源邮件系统Postfix+Extmail+Extman环境部署记录
- js中var
- [LeetCode 题解]: Reverse Nodes in K-Groups
- kettle使用命令行传入数据库链接参数(ip、数据库、端口、用户、密码)执行job时子转换失败。
- Throwable、Error、Exception、RuntimeException 区别 联系
- J2EE 中 用 El表达式 和 Jsp 方式 取得 URL 中的参数方法
热门文章
- [转载]MySQL索引原理与慢查询优化
- PyQt5 中调用MySql接口失败 ( QSqlDatabase 组件) 在Linux环境下如何修改
- SocketServer模块 《Python核心编程(第3版)》——2.5
- ZetCode PyQt4 tutorial basic painting
- python3 scrapy 使用selenium 模拟浏览器操作
- CH3301 同余方程
- 华硕主板P8H61(P8H61-M_LX3_PLUS_R2.0)成功禁用USB口
- 使用SharpZip压缩与解压缩
- 远程连接Linux虚拟机上的mysql失败的解决方法
- scrollWidth,clientWidth,offsetWidth的区别 ---转载的