Python jieba 分词

环境

Anaconda3 Python 3.6, Window 64bit

目的

利用 jieba 进行分词，关键词提取

代码

# -*- coding: utf-8 -*-

import jieba

import jieba.posseg as jbpos

import jieba.analyse as jbal

'''

词性说明:

a:形容词

d:副词

i:成语

m:数词

n:名词

nr:人名

ns:地名

nt:机构团体

nz:其他专有名词

t:时间

v:动词

x:标点符号

f:方位词

un:未知

'''

string1 = "国内掀起了大数据、云计算的热潮。"

# 全模式

w1 = jieba.cut(string1, cut_all=True)

# for i in w1:

#     print(i)

# 精准模式，默认是精准模式

w2 = jieba.cut(string1)

# for i in w2:

#     print(i)

# print("<----------->")

# 搜索引擎模式

w3 = jieba.cut_for_search(string1)

# for i in w3:

#     print(i)

# print("<----------->")

# 词性标注

w4 = jbpos.cut(string1)

# for i in w4:

#     print(i.word + "--" + i.flag)

# print("<----------->")

# 词典加载

# jieba.load_userdict("dict2.txt")

string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"

#word 词语，flag 词性

w5 = jbpos.cut(string2)

for i in w5:

    print(i.word + "--" + i.flag)

print("<----------->\n")

# 更改词频-单个词

jieba.suggest_freq("大数据", True)

jieba.suggest_freq("云计算", True)

w6 = jbpos.cut(string2)

for i in w6:

    print(i.word + "--" + i.flag)

print("<----------->\n")

# 动态修改词典 删除词 del_word

jieba.add_word("仙鹤门")

w7 = jbpos.cut(string2)

for i in w7:

    print(i.word + "--" + i.flag)

print("<----------->\n")

# 提取关键词 第二个参数控制提取参数个数

w8 = jbal.extract_tags(string2, 5)

print(w8)

结果展示

巴特西

Python jieba 分词

最新文章

热门文章