ES之分析器(Analyzer)及拼音分词器
2024-09-08 19:23:17
把输入的文本块按照一定的策略进行分解,并建立倒排索引。在Lucene的架构中,这个过程由分析器(analyzer)完成。
主要组成
character filter
:接收原字符流,通过添加、删除或者替换操作改变原字符流。例如:去除文本中的html标签,或者将罗马数字转换成阿拉伯数字等。一个字符过滤器可以有零个或者多个
。tokenizer
:简单的说就是将一整段文本拆分成一个个的词。例如拆分英文,通过空格能将句子拆分成一个个的词,但是对于中文来说,无法使用这种方式来实现。在一个分词器中,有且只有一个
tokenizeertoken filters
:将切分的单词添加、删除或者改变。例如将所有英文单词小写,或者将英文中的停词a
删除等。在token filters
中,不允许将token(分出的词)
的position
或者offset
改变。同时,在一个分词器中,可以有零个或者多个token filters
默认ES使用standard analyzer
,如果默认的分词器无法符合你的要求,可以自己配置。
下载拼音分词插件,要和安装的es版本保持一致,解压改名乘pinyin放入到 es的plugins下,重启es;
在创建index mapping时可以指定 "analyzer": "pinyin_analyzer"
最新文章
- java基础知识(十一)java反射机制(下)
- [knowledge][basic][hardware] 内存的硬件结构(转)
- Java中自定义异常
- 第一个Linux驱动-流水灯【转】
- 配置apache虚拟主机的实例总结
- Dreamweaver CS6破解教程[序列号+破解补丁]
- 【转】Android AlertDialog 点击对话框外部区域不关闭的设置
- RTP
- void (*fun)(void);什么意思?
- jetty之安装,配置,部署,运行
- 用Bottle开发web程序(二)
- Java类加载和卸载的跟踪
- Python函数可变参数*args及**kwargs详解
- servlet3.0注解loadOnStartup不起作用解决方案
- windows下启动和运行分布式消息中间件消息队列 kafka
- windows mysql zip 安装
- Spring基于注解注入的两种方式
- SQL Server等待
- 关于更改ListBox的ItemsPanel样式
- Spring实现文件的上传下载
热门文章
- R语言|ggplot2| 绘制KEGG气泡图
- Java基础篇——常用类
- 简述HashSet的扩容机制以及我们在重写equals()的时候为何会重写hashcode()
- P8855 [POI2002]商务旅行
- .NET周报【1月第2期 2023-01-13】
- 统一返回对象封装和统一异常捕获封装springboot starter
- Ubuntu 22.04 BigSur 美化
- NG-ZORRO + angular-cli11 表格横纵向单元格合并,按需设置背景色,解决动态合并单元格动态colspan情况下,nzLeft固定列失效问题,也适用VUE,REACT
- selenium注入js代码
- 打开MASA Blazor的正确姿势2:组件总览