把输入的文本块按照一定的策略进行分解,并建立倒排索引。在Lucene的架构中,这个过程由分析器(analyzer)完成。

主要组成

  • character filter:接收原字符流,通过添加、删除或者替换操作改变原字符流。例如:去除文本中的html标签,或者将罗马数字转换成阿拉伯数字等。一个字符过滤器可以有零个或者多个

  • tokenizer:简单的说就是将一整段文本拆分成一个个的词。例如拆分英文,通过空格能将句子拆分成一个个的词,但是对于中文来说,无法使用这种方式来实现。在一个分词器中,有且只有一个tokenizeer

  • token filters:将切分的单词添加、删除或者改变。例如将所有英文单词小写,或者将英文中的停词a删除等。在token filters中,不允许将token(分出的词)position或者offset改变。同时,在一个分词器中,可以有零个或者多个token filters

默认ES使用standard analyzer,如果默认的分词器无法符合你的要求,可以自己配置。

下载拼音分词插件,要和安装的es版本保持一致,解压改名乘pinyin放入到 es的plugins下,重启es;

在创建index mapping时可以指定  "analyzer": "pinyin_analyzer"

最新文章

  1. java基础知识(十一)java反射机制(下)
  2. [knowledge][basic][hardware] 内存的硬件结构(转)
  3. Java中自定义异常
  4. 第一个Linux驱动-流水灯【转】
  5. 配置apache虚拟主机的实例总结
  6. Dreamweaver CS6破解教程[序列号+破解补丁]
  7. 【转】Android AlertDialog 点击对话框外部区域不关闭的设置
  8. RTP
  9. void (*fun)(void);什么意思?
  10. jetty之安装,配置,部署,运行
  11. 用Bottle开发web程序(二)
  12. Java类加载和卸载的跟踪
  13. Python函数可变参数*args及**kwargs详解
  14. servlet3.0注解loadOnStartup不起作用解决方案
  15. windows下启动和运行分布式消息中间件消息队列 kafka
  16. windows mysql zip 安装
  17. Spring基于注解注入的两种方式
  18. SQL Server等待
  19. 关于更改ListBox的ItemsPanel样式
  20. Spring实现文件的上传下载

热门文章

  1. R语言|ggplot2| 绘制KEGG气泡图
  2. Java基础篇——常用类
  3. 简述HashSet的扩容机制以及我们在重写equals()的时候为何会重写hashcode()
  4. P8855 [POI2002]商务旅行
  5. .NET周报【1月第2期 2023-01-13】
  6. 统一返回对象封装和统一异常捕获封装springboot starter
  7. Ubuntu 22.04 BigSur 美化
  8. NG-ZORRO + angular-cli11 表格横纵向单元格合并,按需设置背景色,解决动态合并单元格动态colspan情况下,nzLeft固定列失效问题,也适用VUE,REACT
  9. selenium注入js代码
  10. 打开MASA Blazor的正确姿势2:组件总览