【python】中文提取,判断,分词
2024-08-27 00:13:58
参考:
http://www.cnblogs.com/kaituorensheng/p/3595879.html
https://github.com/fxsjy/jieba
判断是否包含中文
def contain_zh(word):
zh_pattern = re.compile(u'[\u4e00-\u9fa5]+')
word = word.decode()
match = zh_pattern.search(word)
return match
提取中文
def remain_zh(word):
zh_pattern = re.compile(u'[^\u4e00-\u9fa5]+')
word = word.decode()
word = re.sub(zh_pattern,"", word)
return word
中文分词
使用模块jieba。安装pip install jieba
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list) seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)
Full Mode: 我 来到 北京 清华 清华大学 华大 大学
Default Mode: 我 来到 北京 清华大学
最新文章
- Dapper.Contrib:GetAsync<;T>; only supports an entity with a [Key] or an [ExplicitKey] property
- @RequestParam @RequestBody @PathVariable 等参数绑定注解详解
- WIFI网络操作
- js多行省略
- Android开发常见错误及技巧
- java方法创建
- NYOJ----1124数量
- Opencv step by step - 视频进度条
- [CF 474E] Pillars (线段树+dp)
- LeetCode 264
- Tomcat服务器常用配置和HTTP简介
- ACM——快速排序法
- Oracle统计之like,or关键字
- Linux怎么设置PostgreSQL远程访问
- 基于requirejs和angular搭建spa应用
- ANSYS分析中的单位
- WordPress版微信小程序2.6版发布
- P1563 玩具谜题(简单模拟)
- 转载:Eureka 开发时快速剔除失效服务
- Installation Guide of Ubuntu 14.04, 64bit on Dell Server