pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Ruby interface.
下载地址:http://code.google.com/p/pymmseg-cpp/
windows下用户可以下载 pymmseg-cpp-win32-1.0.1.tar.gz,安装方法如下:
1.将压缩包解压
2.安装vs2008,使用VS2008的命令行窗口来编译程序,位置在 工具/visual studio 2008 command prompt

从这个命令行窗口进入pymmseg/mmseg-cpp文件夹。输入python build.py,回车

编写程序如下

#coding:UTF-8
from pymmseg import mmseg
mmseg.dict_load_defaults()
text = '今天我真的好开心'
algor = mmseg.Algorithm(text)
for tok in algor:
print '%s [%d..%d]'%(tok.text,tok.start,tok.end)

运行后会出现乱码,这是因为mmseg支持的是utf8, windows的本地默认编码是cp936,也就是gbk编码

将代码改写如下即可

# coding: UTF-8
from pymmseg import mmseg
mmseg.dict_load_defaults()
text = '今天我真的好开心'
algor = mmseg.Algorithm(text)
for tok in algor:
print '%s [%d..%d]' % (tok.text.decode('UTF-8').encode('GBK'), tok.start, tok.end)
												

最新文章

  1. Git:Git初体验——Git安装配置
  2. Delphi XE5 android 获取网络状态
  3. c语言,链表
  4. Tourists
  5. [项目记录]一个.net下使用HAP实现的吉大校园通知网爬虫工具:OAWebScraping
  6. Java 接口基础详解
  7. Python中的一些小技巧
  8. C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 对外不要提供Delete方法加强软件的安全性
  9. 【BZOJ5323】[JXOI2018]游戏(组合计数,线性筛)
  10. 《Oracle DBA工作笔记:运维、数据迁移与性能调优》 PDF 下载
  11. Oracle笔记 #01# 简单分页
  12. HDU - 5157 :Harry and magic string (回文树,求多少对不相交的回文串)
  13. YQCB冲刺第二周第四天
  14. c++获取时间戳
  15. ACM 常见词汇
  16. .NET中的Request
  17. sdoi2014-向量集-线段树-二分斜率
  18. 2017-2018-1 JAVA实验站 第二周作业
  19. BOM*创建工艺路线
  20. MySql(三):MyISAM和InnoDB区别详解

热门文章

  1. 09.正则表达式re-1.正则表达式
  2. C#学习笔记_02_数据类型
  3. Codeforces 912A/B
  4. 2.SpringBoot的properties的属性配置详解
  5. php 微擎
  6. 使用idea搭建maven项目时 java目录下的xml文件没有加载的解决方法
  7. 洛谷 P2709 BZOJ 3781 小B的询问
  8. hdu 4009 最小树形图模板题朱刘算法
  9. HDU 4513 manacher
  10. pl/sql developer 自动输入替换 光标自动定位