首先在网上下载一个汉语词典的txt文件, 汉语词典

1.用正则去掉词语的解释,即提取出所有汉语词语;

import re
def getHanYuCi(st):
p = re.compile(r'【.*?】') # 挑选出: [汉字]
rt = p.findall(st) p = re.compile(r'[\u4E00-\u9FA5]+') # 去掉【】:只保留汉字; *:前一个字符0次或无限次; +:表示1次或无限制
rt = p.findall(str(rt))
#print(str[0:1000])
return rt def test_1():
path = r'C:\Users\sss\Desktop\hanyucidian.txt'
with open(path, 'rb') as f:
st = f.read().decode('gb18030') rt = getHanYuCi(st)
dict = {}
for x in rt:
dict[x] = 0
#print('+++++++++++++')
#print(len(rt))
#print(rt) # 由于rt特别大,直接print不会读出任何东西,但只读某一段时可以读出来
#print(rt[1:10])
path = r'C:\Users\sss\Desktop\hanyu_ci.txt'
with open(path, 'w') as f:
f.write(str(dict)) test_1()

  

最新文章

  1. Zabbix监控disk performance
  2. linux eclipse c++
  3. jquery内容选择器(匹配包含指定选择器的元素)
  4. SQL 实现,如果存在就更新,如果不存在就添加
  5. 01.Editplus+Lua配置
  6. 前端JS模版库kino.razor - 原理流程分析 - 改进版轮子RazorJs
  7. Simulation of empirical Bayesian methods (using baseball statistics)
  8. [译] 所有你需要知道的关于完全理解 Node.js 事件循环及其度量
  9. 搭建dnsmasq服务器,局域网内部解析
  10. day4 liaoxuefeng---高级特性
  11. 使用find命令查找文件
  12. cmake中添加-fPIC编译选项方法
  13. Dilated Convolutions 空洞卷积
  14. go get 碰壁怎么办?
  15. Linux下开源邮件系统Postfix+Extmail+Extman环境部署记录
  16. js中var
  17. [LeetCode 题解]: Reverse Nodes in K-Groups
  18. kettle使用命令行传入数据库链接参数(ip、数据库、端口、用户、密码)执行job时子转换失败。
  19. Throwable、Error、Exception、RuntimeException 区别 联系
  20. J2EE 中 用 El表达式 和 Jsp 方式 取得 URL 中的参数方法

热门文章

  1. [转载]MySQL索引原理与慢查询优化
  2. PyQt5 中调用MySql接口失败 ( QSqlDatabase 组件) 在Linux环境下如何修改
  3. SocketServer模块 《Python核心编程(第3版)》——2.5
  4. ZetCode PyQt4 tutorial basic painting
  5. python3 scrapy 使用selenium 模拟浏览器操作
  6. CH3301 同余方程
  7. 华硕主板P8H61(P8H61-M_LX3_PLUS_R2.0)成功禁用USB口
  8. 使用SharpZip压缩与解压缩
  9. 远程连接Linux虚拟机上的mysql失败的解决方法
  10. scrollWidth,clientWidth,offsetWidth的区别 ---转载的