一、为什么要规范化

在做信息检索的时候,一般都是精确匹配,如果不做规范化,难以做查询,比如用U.S.A去检索文本,结果文本里实际上存的是USA,那么实际上应该能查到的结果查不到了。

所以需要对所有内容做规范化,以实现检索的有效性。

二、怎么规范化

  1. 大小写转换
    1. 在信息检索的应用上,通常将大写字母转换成小写字母,因为用户更倾向于使用小写字母
    2. 例外情况:当大写字母出现在句子的中间的时候,一般有特殊意义,不能转换,比如是某个机构的缩写
    3. 对于情感分析、机器翻译或者信息抽取,大写字母一般都非常重要,不能转换成小写,比如US和us
  2. 词形还原
    1. 减少基本形式的不同形态,比如:am, are, is ->be  ;  car, cars car's -> car
    2. 重点:找到词典中的正确的中心词,这对机器翻译来说尤为重要
    3. 形态学:找到词素(组成单词的有意义的最小单元),词素主要由以下两种组成
      1. 词根:核心的意义的承载单元
      2. 词缀:词根的附着片段,通常有语法功能
    4. Steming:在信息检索中,将单词粗切掉词缀,只保留词根。
      1. 英语中最通用的算法:Porter's 算法(使用简单的替换规则)
      2. 在去掉(*v*)ing时只有当(*v*)中含有元音时才去掉

最新文章

  1. Backbone.js学习之Backbone.View(视图)
  2. waf2控件名
  3. KeyValuePair
  4. SASS语法学习
  5. python学习笔记二--列表的使用
  6. joda jar日期处理类的学习
  7. 本地代码git到github上
  8. jQuery慢慢啃之CSS(六)
  9. hdu_5683_zxa and xor(非正解的暴力)
  10. JS面向对象基础
  11. 转化秒数为正规的时间格式{NSString格式的秒数转成NSDate格式后再以NSString形式输出)
  12. android开发第一天
  13. Log4j配置(xml和property两种)
  14. 实现promise
  15. nodejs即时通讯模块+SocketIO4Net的使用小结
  16. 2018.12.19 atcoder Iroha and a Grid(组合数学)
  17. Rotate Image leetcode java
  18. 清华DNS
  19. OSLab课堂作业2
  20. CSS 小结笔记之定位

热门文章

  1. rest-assured的根路径(root path)和URL编码(URL Encoding)
  2. 学习python-跨平台获取键盘事件
  3. centos 7更新yum源与更新系统
  4. nginx 配置优化指令
  5. 安装Newton版Glance
  6. 如何在vue && webpack 项目中的单文件组件中引入css
  7. flask-restful 请求解析
  8. PCU
  9. 如何优雅地进行错误处理(clean code阅读笔记之六)
  10. jquery的方法总结