参考:

http://www.cnblogs.com/kaituorensheng/p/3595879.html

https://github.com/fxsjy/jieba

判断是否包含中文

def contain_zh(word):
zh_pattern = re.compile(u'[\u4e00-\u9fa5]+')
word = word.decode()
match = zh_pattern.search(word)
return match

提取中文

def remain_zh(word):
zh_pattern = re.compile(u'[^\u4e00-\u9fa5]+')
word = word.decode()
word = re.sub(zh_pattern,"", word)
return word

中文分词

使用模块jieba。安装pip install jieba

import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list) seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

Full Mode: 我 来到 北京 清华 清华大学 华大 大学

Default Mode: 我 来到 北京 清华大学

最新文章

  1. Dapper.Contrib:GetAsync<T> only supports an entity with a [Key] or an [ExplicitKey] property
  2. @RequestParam @RequestBody @PathVariable 等参数绑定注解详解
  3. WIFI网络操作
  4. js多行省略
  5. Android开发常见错误及技巧
  6. java方法创建
  7. NYOJ----1124数量
  8. Opencv step by step - 视频进度条
  9. [CF 474E] Pillars (线段树+dp)
  10. LeetCode 264
  11. Tomcat服务器常用配置和HTTP简介
  12. ACM——快速排序法
  13. Oracle统计之like,or关键字
  14. Linux怎么设置PostgreSQL远程访问
  15. 基于requirejs和angular搭建spa应用
  16. ANSYS分析中的单位
  17. WordPress版微信小程序2.6版发布
  18. P1563 玩具谜题(简单模拟)
  19. 转载:Eureka 开发时快速剔除失效服务
  20. Installation Guide of Ubuntu 14.04, 64bit on Dell Server

热门文章

  1. (递推 大整数) Children’s Queue hdu1297
  2. Cotex-M4简介
  3. prometheus + grafana部署RabbitMQ监控
  4. yolo3的改变
  5. NGUI的UIRoot会移动
  6. 解决vue <router-link>在IE与火狐上点击失效(路由不跳转)问题
  7. Runnable Callable及Future
  8. HDU - 3002 King of Destruction(最小割)
  9. bootstrap中模态框的使用
  10. 【洛谷P1896【SCOI2005】】互不侵犯King