Python的jieba模块简介
2024-08-25 10:47:13
现如今,词云技术遍地都是,分词模块除了jieba也有很多,主要介绍一下jieba的基本使用
import jieba
import jieba.posseg as psg
from os import path
from collections import Counter s=u'我想和女朋友一起去北京天安门闲逛。。' cut = jieba.cut(s) print('精确模式')
print(cut)
print(','.join(cut)) print ('全模式')
print(','.join(jieba.cut(s,cut_all = True))) print('搜索引擎模式')
print(','.join(jieba.cut_for_search(s))) print('词性')
print([(x.word,x.flag) for x in psg.cut(s)])
print([(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith('n')]) print('--*--'*10)
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode:", "/ ".join(seg_list)) # 全模式 seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode:", "/ ".join(seg_list)) # 精确模式 seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list)) seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list)) d=path.dirname(__file__)
sanguo_text=open(path.join(d,"data//sanguo.txt"),encoding='utf-8').read()
print(len(sanguo_text)) sanguo_words = [x for x in jieba.cut(sanguo_text) if len(x) >= 2]
c = Counter(sanguo_words).most_common(20)
print(c)
运行结果
其中精确模式比较好用,全模式就是尽量将所有的词拿出来
最新文章
- MySQL 配置
- C#导入、导出功能
- mysql 之权限介绍
- 项目中经常用到的reset.css文件
- 规划(纪念我在ACM道路上的一年)
- 使用Docker运行Microsoft SQL Server 2017
- PhpStorm连接服务器,开始自动上传功能
- 20175312 2018-2019-2 《Java程序设计》结对编程练习_四则运算(第二周:整体性总结)
- Mac OS 挂载 EFI 引导分区
- Python之__new__方法
- LOJ #2542「PKUWC2018」随机游走
- bimgotoblock-BIM要上区块链
- Spark2.2+ES6.4.2(三十二):ES API之index的create/update/delete/open/close(创建index时设置setting,并创建index后根据avro模板动态设置index的mapping)
- YAML配置,spring boot 配置文件
- PAT1021(dfs 连通分量)
- Web开发者应知的URL编码知识
- ArcGIS Desktop 10.1+ArcEngine10.1完全破解安装教程(含下载地址+亲测可用!)
- BASIC-4_蓝桥杯_数列特征
- Pie(浮点数二分)
- 视音频数据处理入门:H.264视频码流解析
热门文章
- 深度语义匹配模型-DSSM 及其变种
- sqlserver内存管理之lazy writer
- java实现多文件上传01
- 【CentOS】在Centos7 下无图形界面安装 Oracle11g
- Win+Tab键实现自定义程序列表间的窗口切换
- Linux --Mysql基础命令
- 微信小程序国际化
- jQuery的datatable的destroy属性,和$(";#test";).dataTable().fnDestroy();区别,两者的区别
- nbu集群Alwayson相关问题
- 2018.10.6 Hibernate配置文件详解-------ORM元数据配置 &;&;&; hibernate主配置文件