ElasticSearch(十八)初识分词器
2024-08-29 17:45:23
1、什么是分词器
作用:切分词语,normalization(提升recall召回率),如给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换),分词器
recall,召回率:搜索的时候,增加能够搜索到的结果的数量
3个功能:
character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签(<span>hello<span> --> hello),& --> and(I&you --> I and you)
tokenizer:分词,hello you and me --> hello, you, and, me
token filter:lowercase,stop word,synonymom,dogs --> dog,liked --> like,Tom --> tom,a/the/an --> 干掉,mother --> mom,small --> little
一个分词器,很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引
2、内置的一些分词器
standard analyzer、simple analyzer、whitespace analyzer、language analyzer(特定的语言的分词器,比如说,english,英语分词器)
最新文章
- vs2010调试程序出现“Cannot find or open the PDB file”
- 大商创 sql追踪 用户注册
- NoSuchMethodError: antlr.collections.AST.getLine()I
- 【Spring】Spring系列7之Spring整合MVC框架
- 64位gcc编译32位汇编
- 2016CVTE编程题:兔子藏洞
- ABAP OO与ALV结合方式探索(2)
- 适合我胃口的angular.js学习资料
- MYSQL event_scheduler
- 《疯狂java讲义》笔记 1-5章
- SRM 585 DIV 1 总结
- 定位(position)
- bzoj:3398 [Usaco2009 Feb]Bullcow 牡牛和牝牛
- 远程调试Eclipse插件的设置
- 基于Twitter的Snowflake算法实现分布式高效有序ID生产黑科技(无懈可击)
- 面试 5:手写 Java 的 pow() 实现
- Java:ConcurrentHashMap
- 胖哈勃杯Pwn400、Pwn500详解
- 《剑指offer》-数字在排序数组中出现的次数
- 【python041--构造方法:构造和析造】
热门文章
- asp.net购物车,订单以及模拟支付宝支付(三)---提交订单
- 2017.7.10 Package name does not correspond to the file path
- Java List序列化的实现
- EffectiveJava(17)要么为继承而设计,要么禁止继承
- chown将指定文件的拥有者改为指定的用户或组(转)
- CentOS6.8 编译安装LNMP
- Android API Guides---RenderScript
- 解决zabbix“ZBX_NOTSUPPORTED: Timeout while executing a shell script”报错
- centos针对postgres出现的postgresql Ident authentication failed for user
- 让UITableView进入编辑模式