paip.提升中文分词准确度---新词识别





近来,中文每年大概出现800---1仟个新的词..

60%的分词错误是由新词导致的





作者Attilax  艾龙,  EMAIL:1466519819@qq.com 

来源:attilax的专栏

地址:http://blog.csdn.net/attilax 





新词的概念 

 目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。通常,未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括 

 (a) 缩略词(abbreviation),如“中油”、“日韩”; 

 (b) 专有名词(Proper names),主要包括人名、地名、机构名。如“张三”、“北京”、“微软”;

  (c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”; 

 (d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”; 

 (e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。





新词的识别方法.

1.基与规则::::通过构词,前缀,后缀(词边界),词形,编写规则

....化,....族

大概准确录90%

2.基与统计方法.

俩个/三个 相邻单字 的频率....大概准确录88%





3.基与搜索引擎

这个准确度非常高.. 几乎95%了...

bg str feodg se hetu,auto pop ...yaos chwlai ,shg word...beir, bsd ..









4.单字构词能力以及频率.

词素级的判断...





5.基与sns。。类似于智能+人工

这个也能是准确度非常高,近乎100% ...因为是人工反馈。。。









 





/////////垃圾串过滤

能预先界定垃圾串词库..到时过滤..

垃圾串词库的建立也能使用搜索引擎增强判断..

















参考:

中文新词识别技术综述_免费下载_百度文库.htm

【论文】Internet中的新词识别_百度文库.htm

【论文】基于词内部模式的新词识别_百度文库.htm

关于新词识别的 - 豆丁网.htm  (20个后缀)

【论文】不限领域的中文新词的识别研究_百度文库.htm

新词发现综述_免费下载_百度文库.htm

最新文章

  1. oracle 用户创建这个挺靠谱
  2. javascript:history.go()和History.back()的区别(转载)
  3. APP Widget的开发
  4. linux shell 之 crontab(定时任务)详解
  5. <context-param>与<init-param>
  6. Ajax分页js代码
  7. Linux提示no crontab for root的解决办法
  8. CSS修改方法
  9. POJ 1155 TELE 背包型树形DP 经典题
  10. BZOJ1668: [Usaco2006 Oct]Cow Pie Treasures 馅饼里的财富
  11. 【转】嵌入式Linux学习笔记
  12. JQuery基本语法(部分)
  13. Java想要学到精通,这几点一定要掌握
  14. 【HTTP协议】---HTTPS协议
  15. Selenium+Python进行web自动化测试(Demo+API)
  16. Java进阶(五十一)Could not create the view: An unexpected exception was thrown
  17. Android内存优化(二)解析Memory Monitor、Allocation Tracker和Heap Dump
  18. js splice vs slice
  19. 树状数组区间加法&区间求和操作
  20. mysql-数据库管理安装

热门文章

  1. .Net的错误机制
  2. 【BZOJ1812】riv(多叉树转二叉树,树形DP)
  3. Java核心知识点学习----线程同步工具类,CyclicBarrier学习
  4. FZU 1894 志愿者选拔 (单调队列)
  5. Errors occurred during the build. Errors running builder 'JavaScript Validator' on project 'XXX'.
  6. Excel表格常用的函数,留着备用
  7. 基于选择重传ARQ传输协议的数据重传机制方案设计
  8. 团队博客作业Week1
  9. SDAutoLayout:比masonry更简单易用的自动布局库
  10. Java类路径