1.背景

1.1 简介

ES默认的分词器对中文分词并不友好,所以一般会安装中文分词插件,以便能更好的支持中文分词检索。

1.2 IK分词器

IK分词器在是一款基于词典和规则的中文分词器。这里讲解的IK分词器是独立于Elasticsearch、Lucene、Solr,可以直接用在java代码中的部分。实际工作中IK分词器一般都是集成到Solr和Elasticsearch搜索引擎里面使用。
IK分词采用Java编写。
IK分词的效果主要取决于词库,目前自带主词典拥有27万左右的汉语单词量。对于应用领域的不同,需要各类专业词库的支持。词库还可以自己维护。
IK分词器地址:https://github.com/medcl/elasticsearch-analysis-ik
IK分词器有两种分词模式:ik_max_word和ik_smart。

下载安装包

  1. 下载预编译的安装包,下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
  1. 下载对应版本,IK版本与Elasticsearch版本一致
  1. 将IK包加入到Elasticsearch插件目录下,新建ik目录,参考如下:

1.3 分词模式

IK分词器有两种分词模式:
  1. 细粒度模式 ik_max_word
  1. 智能模式 ik_smart

细粒度模式

采用细粒度模式ik_max_word:会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,华,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合。测试代码:
 GET /_analyze
{
"text": ["中华人民共和国国歌"],
"analyzer": "ik_max_word"
}

分词规则

  1. 当查询词在词典中不存在时,会按字拆分。如:在风->在,风
  1. 当查询词在词典中存在,且长度为两个字时,有时拆分有时不拆分。例如:甲乙–>甲乙 , 联通–>联通,联,通
  1. 当查询词在词典中存在,且查询词的一部分也在词典在中存在,则分别拆分。例如:甲乙丙丁–>甲乙丙丁,甲乙,丙丁 中国联通–>中国联通,中国,国联,联通,通
  1. 当查询词任意部分都不在词典中存储,则按字拆分

智能模式

智能模式ik_smart会做最粗粒度的拆分。比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”,适合 Phrase 查询。
 GET /_analyze
{
"text": ["中华人民共和国国歌"],
"analyzer": "ik_smart"
}

分词规则

  1. 当查询词在词典中不存在时,会按字拆分 例如:在北–>在,北
  1. 当查询词在词典中存在,不做拆分 例如:甲乙–>甲乙,甲乙丙丁–>甲乙丙丁
  1. 当查询词任意部分都不在词典中存储,则按字拆分

2.分词实践

2.1 词典配置

很多时候默认的分词效果达不到线上使用的要求,这就需要不断维护扩展词典和停止词字典,提高分词匹配的准确性,优化用户体验。
在IK分词器中,主要可以维护2种词典,一种是扩展词典,可以自定义一些词语,提高分词精读。
另一种是停止词词典,停止词就是指不会被分词拆分出来的词语,不参与分词和检索操作。
可以通过修改IKAnalyzer.cfg.xml配置文件,来自定义词典。IKAnalyzer.cfg.xml的位置为{plugins}/ik/config/。

注意事项

  1. ext_dict:直接修改ext_dict属性中配置的字段里面的内容,并不能立刻生效。只有重启ES进程实例,修改的内容才会生效。
  1. remote_ext_dict:通过远程扩展的字典,可以实现词典的热更新,不用重启ES进程实例。

2.2 词典热更新

配置词典代理

配置词典源有多种模式,如tomact容器,Nginx代理等,本例基于Nginx配置代理如下:
Nginx按照参考:《Nginx按照教程》
 server {
listen 8084;
server_name localhost;
#charset koi8-r;
#access_log logs/host.access.log main;
location / {
root html;
index index.html index.htm;
}
location /ik-remote-dic {
alias /opt/elasticsearch/ik-config;
autoindex on;
}
........

设置词典值

在目录下设置数据词典(本例为: /opt/elasticsearch/ik-config),由于是中文分词,特别注意文件的字符格式(UTF-8),参考如下:

配置远程词典源

2.3 分词应用

关键词查询,未做扩展的数据字典:
 GET /_analyze
{
"text": "成都数康公司,通商速子股份有限公司,字节不跳动公司,头颅后侧位工时,王令",
"analyzer": "ik_smart"
}
关键词查询,做扩展的数据字典:
 GET /_analyze
{
"text": "重庆数康公司,通商数字股份有限公司,字节跳动公司,头颅正侧位工时,王令,王玲的报告,测试是报告",
"analyzer": "ik_smart"
}

 

最新文章

  1. 跳入linux的第一个坑-因为安装Ubuntu导致的硬盘被误格的恢复.(记TestDisk使用记录)
  2. Flume日志采集系统——初体验(Logstash对比版)
  3. SZ,RZ传送文件
  4. ERROR 1201 (HY000) Could not initialize master info structure
  5. js滑动门及对像的使用
  6. quick-x 2.2.5 DragonBones 某些fla导出使用后player卡死
  7. Doctype 严格模式与混杂模式-如何触发这两种模式,区分它们有何意义?
  8. webstorm创建nodejs + express + jade 的web 项目
  9. JS函数参数
  10. BZOJ_1858_[Scoi2010]序列操作_线段树
  11. Angular 框架下ng-repeat内部使用tooltip插件的办法
  12. flink with rabbitmq,sink source mysql redis es
  13. 【融云分析】如何实现分布式场景下唯一 ID 生成?
  14. 关于NGUI Shader 和 Draw Call的优化 & 模糊shader
  15. python 进阶读书笔记2 -- python魔法函数
  16. asp grid 增加和删除行数据
  17. npm 走 privoxy 代理经常出现 shasum check failed 的解决办法
  18. 创建数据库,创建数据库表,例子。MySQL语句
  19. 终止TTask.Run启动的线程
  20. javascript双等号引起的类型转换

热门文章

  1. 线程崩溃为什么不会导致 JVM 崩溃
  2. redis相关知识点
  3. BUUCTF-数据包中的线索
  4. 【RPA之家转载】苏桦 华为RPA 企业财务实践:RPA与AI结合,实现百万级票据、合同处理自动化
  5. idea部署项目运行没问题,但是页面404。
  6. vue在Docker上运行
  7. NC15975 小C的记事本
  8. Day01 对前端的初步了解
  9. do-while循环和三种循环的区别
  10. C#《原CSharp》第三回 万文疑谋生思绪 璃月港口见清玉