• 环境

Anaconda3 Python 3.6, Window 64bit

  • 目的

利用 jieba 进行分词,关键词提取

  • 代码
# -*- coding: utf-8 -*-

import jieba
import jieba.posseg as jbpos
import jieba.analyse as jbal '''
词性说明:
a:形容词
d:副词
i:成语
m:数词
n:名词
nr:人名
ns:地名
nt:机构团体
nz:其他专有名词
t:时间
v:动词
x:标点符号
f:方位词
un:未知
''' string1 = "国内掀起了大数据、云计算的热潮。" # 全模式
w1 = jieba.cut(string1, cut_all=True)
# for i in w1:
# print(i) # 精准模式,默认是精准模式
w2 = jieba.cut(string1)
# for i in w2:
# print(i)
# print("<----------->") # 搜索引擎模式
w3 = jieba.cut_for_search(string1)
# for i in w3:
# print(i)
# print("<----------->") # 词性标注
w4 = jbpos.cut(string1)
# for i in w4:
# print(i.word + "--" + i.flag)
# print("<----------->") # 词典加载
# jieba.load_userdict("dict2.txt")
string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"
#word 词语,flag 词性
w5 = jbpos.cut(string2)
for i in w5:
print(i.word + "--" + i.flag)
print("<----------->\n") # 更改词频-单个词
jieba.suggest_freq("大数据", True)
jieba.suggest_freq("云计算", True)
w6 = jbpos.cut(string2)
for i in w6:
print(i.word + "--" + i.flag)
print("<----------->\n") # 动态修改词典 删除词 del_word
jieba.add_word("仙鹤门")
w7 = jbpos.cut(string2)
for i in w7:
print(i.word + "--" + i.flag)
print("<----------->\n") # 提取关键词 第二个参数控制提取参数个数
w8 = jbal.extract_tags(string2, 5)
print(w8)
  • 结果展示

最新文章

  1. 面向对象设计模式纵横谈:Abstract Factory 抽象工厂模式(笔记记录)
  2. MVC图片验证码
  3. 今天在看UWP蓝牙的例子
  4. Servlet教程
  5. Knockout 新版应用开发教程之&quot;text&quot;绑定
  6. Python爬取17吉他网吉他谱
  7. html5中使用标签支持视频播放
  8. 重新mysql-server
  9. java 基于JDK中的源码总结下String二
  10. WITH AS
  11. 1008 Elevator
  12. hdu 3966 Aragorn&#39;s Story(树链剖分+树状数组/线段树)
  13. 使用python scipy.optimize linprog和lingo线性规划求解最大值,最小值(运筹学学习笔记)
  14. c# 获取 bios 序列号
  15. 基于vue-cli3的vue项目移动端样式适配,lib-flexible和postcss-px2rem
  16. 页面中去除浮动 clear:both
  17. 定义一个Rectangle类,该类提供getLength和getWidth方法。
  18. Linux Tomcat自启动
  19. Java编程的逻辑 (45) - 神奇的堆
  20. virtualBox虚拟机联网

热门文章

  1. java 常用的几个配置
  2. 【推荐】CentOS安装vsftpd-3.0.3+安全配置
  3. Design Pattern - 访问者模式
  4. TimeQuest学习总结
  5. Django——请求生命周期
  6. beego——表单验证
  7. 人性化的Form(django)
  8. Python(文件处理)
  9. PAT 甲级真题
  10. s5_day7装饰器作业