1、什么是分词器

作用:切分词语,normalization(提升recall召回率),如给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换),分词器

recall,召回率:搜索的时候,增加能够搜索到的结果的数量

3个功能:

character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签(<span>hello<span> --> hello),& --> and(I&you --> I and you)
tokenizer:分词,hello you and me --> hello, you, and, me
token filter:lowercase,stop word,synonymom,dogs --> dog,liked --> like,Tom --> tom,a/the/an --> 干掉,mother --> mom,small --> little

一个分词器,很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引

2、内置的一些分词器

standard analyzer、simple analyzer、whitespace analyzer、language analyzer(特定的语言的分词器,比如说,english,英语分词器)

最新文章

  1. vs2010调试程序出现“Cannot find or open the PDB file”
  2. 大商创 sql追踪 用户注册
  3. NoSuchMethodError: antlr.collections.AST.getLine()I
  4. 【Spring】Spring系列7之Spring整合MVC框架
  5. 64位gcc编译32位汇编
  6. 2016CVTE编程题:兔子藏洞
  7. ABAP OO与ALV结合方式探索(2)
  8. 适合我胃口的angular.js学习资料
  9. MYSQL event_scheduler
  10. 《疯狂java讲义》笔记 1-5章
  11. SRM 585 DIV 1 总结
  12. 定位(position)
  13. bzoj:3398 [Usaco2009 Feb]Bullcow 牡牛和牝牛
  14. 远程调试Eclipse插件的设置
  15. 基于Twitter的Snowflake算法实现分布式高效有序ID生产黑科技(无懈可击)
  16. 面试 5:手写 Java 的 pow() 实现
  17. Java:ConcurrentHashMap
  18. 胖哈勃杯Pwn400、Pwn500详解
  19. 《剑指offer》-数字在排序数组中出现的次数
  20. 【python041--构造方法:构造和析造】

热门文章

  1. asp.net购物车,订单以及模拟支付宝支付(三)---提交订单
  2. 2017.7.10 Package name does not correspond to the file path
  3. Java List序列化的实现
  4. EffectiveJava(17)要么为继承而设计,要么禁止继承
  5. chown将指定文件的拥有者改为指定的用户或组(转)
  6. CentOS6.8 编译安装LNMP
  7. Android API Guides---RenderScript
  8. 解决zabbix“ZBX_NOTSUPPORTED: Timeout while executing a shell script”报错
  9. centos针对postgres出现的postgresql Ident authentication failed for user
  10. 让UITableView进入编辑模式