paip.提升中文分词准确度---新词识别
paip.提升中文分词准确度---新词识别
近来,中文每年大概出现800---1仟个新的词..
60%的分词错误是由新词导致的
作者Attilax 艾龙, EMAIL:1466519819@qq.com
来源:attilax的专栏
地址:http://blog.csdn.net/attilax
新词的概念
目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。通常,未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括
(a) 缩略词(abbreviation),如“中油”、“日韩”;
(b) 专有名词(Proper names),主要包括人名、地名、机构名。如“张三”、“北京”、“微软”;
(c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”;
(d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”;
(e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。
新词的识别方法.
1.基与规则::::通过构词,前缀,后缀(词边界),词形,编写规则
....化,....族
大概准确录90%
2.基与统计方法.
俩个/三个 相邻单字 的频率....大概准确录88%
3.基与搜索引擎
这个准确度非常高.. 几乎95%了...
bg str feodg se hetu,auto pop ...yaos chwlai ,shg word...beir, bsd ..
4.单字构词能力以及频率.
词素级的判断...
5.基与sns。。类似于智能+人工
这个也能是准确度非常高,近乎100% ...因为是人工反馈。。。
/////////垃圾串过滤
能预先界定垃圾串词库..到时过滤..
垃圾串词库的建立也能使用搜索引擎增强判断..
参考:
中文新词识别技术综述_免费下载_百度文库.htm
【论文】Internet中的新词识别_百度文库.htm
【论文】基于词内部模式的新词识别_百度文库.htm
关于新词识别的 - 豆丁网.htm (20个后缀)
【论文】不限领域的中文新词的识别研究_百度文库.htm
新词发现综述_免费下载_百度文库.htm
最新文章
- oracle 用户创建这个挺靠谱
- javascript:history.go()和History.back()的区别(转载)
- APP Widget的开发
- linux shell 之 crontab(定时任务)详解
- <;context-param>;与<;init-param>;
- Ajax分页js代码
- Linux提示no crontab for root的解决办法
- CSS修改方法
- POJ 1155 TELE 背包型树形DP 经典题
- BZOJ1668: [Usaco2006 Oct]Cow Pie Treasures 馅饼里的财富
- 【转】嵌入式Linux学习笔记
- JQuery基本语法(部分)
- Java想要学到精通,这几点一定要掌握
- 【HTTP协议】---HTTPS协议
- Selenium+Python进行web自动化测试(Demo+API)
- Java进阶(五十一)Could not create the view: An unexpected exception was thrown
- Android内存优化(二)解析Memory Monitor、Allocation Tracker和Heap Dump
- js splice vs slice
- 树状数组区间加法&;区间求和操作
- mysql-数据库管理安装
热门文章
- .Net的错误机制
- 【BZOJ1812】riv(多叉树转二叉树,树形DP)
- Java核心知识点学习----线程同步工具类,CyclicBarrier学习
- FZU 1894 志愿者选拔 (单调队列)
- Errors occurred during the build. Errors running builder &#39;JavaScript Validator&#39; on project &#39;XXX&#39;.
- Excel表格常用的函数,留着备用
- 基于选择重传ARQ传输协议的数据重传机制方案设计
- 团队博客作业Week1
- SDAutoLayout:比masonry更简单易用的自动布局库
- Java类路径