【NLP_Stanford课堂】词形规范化
2024-08-29 03:00:54
一、为什么要规范化
在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。
所以需要对所有内容做规范化,以实现检索的有效性。
二、怎么规范化
- 大小写转换
- 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母
- 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写
- 对于情感分析、机器翻译或者信息抽取,大写字母一般都非常重要,不能转换成小写,比如US和us
- 词形还原
- 减少基本形式的不同形态,比如:am, are, is ->be ; car, cars car's -> car
- 重点:找到词典中的正确的中心词,这对机器翻译来说尤为重要
- 形态学:找到词素(组成单词的有意义的最小单元),词素主要由以下两种组成
- 词根:核心的意义的承载单元
- 词缀:词根的附着片段,通常有语法功能
- Steming:在信息检索中,将单词粗切掉词缀,只保留词根。
- 英语中最通用的算法:Porter's 算法(使用简单的替换规则)
在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉
最新文章
- Backbone.js学习之Backbone.View(视图)
- waf2控件名
- KeyValuePair
- SASS语法学习
- python学习笔记二--列表的使用
- joda jar日期处理类的学习
- 本地代码git到github上
- jQuery慢慢啃之CSS(六)
- hdu_5683_zxa and xor(非正解的暴力)
- JS面向对象基础
- 转化秒数为正规的时间格式{NSString格式的秒数转成NSDate格式后再以NSString形式输出)
- android开发第一天
- Log4j配置(xml和property两种)
- 实现promise
- nodejs即时通讯模块+SocketIO4Net的使用小结
- 2018.12.19 atcoder Iroha and a Grid(组合数学)
- Rotate Image leetcode java
- 清华DNS
- OSLab课堂作业2
- CSS 小结笔记之定位