6.ElasticSearch系列之倒排索引
2024-09-08 17:46:57
1. 倒排索引简介
对于书通过目录查找对应章节内容的方式属于正排索引,而对于想查询文本,如我爱中国在书籍中出现的次数与具体位置,则是倒排索引的范畴。
2. 倒排索引核心组成
单词词典(Term Dictionary)
记录所有文档的单词,记录单词到倒排列表的关联关系。单词词典一般比较大,可以通过B+树或哈希拉链法实现,以满足高性能的插入和查询倒排列表(Posting List)
记录了单词对应的文档集合,由倒排索引项组成:- 文档ID
- 词频TF - 该单词在文档中出现的次数,用于相关性评分
- 位置(Position) - 单词在文档中分词的位置。用于语句搜索
- 偏移(Offset) - 记录单词的开始结束位置,用于高亮显示
ElasticSearch的JSON文档中的每个字段,都有自己的倒排索引。可以指定对某些字段不做索引,这样可以节省存储空间,但该字段无法被搜索
最新文章
- 浅谈JSON
- OpenGL函数思考-glLoadIdentity
- 谷歌和HTTPS
- ubuntu 14.04安装mysql server &; mysql client
- MVC两个必懂核心
- IOS UIActivityIndicatorView 等待指示器
- Chapter 2 创建一个应用
- C#程序员整理的Unity 3D笔记(十五):Unity 3D UI控件至尊–NGUI
- [转] linux下的c/c++调试器gdb
- 5 HBase 常用Shell命令
- BZOJ 1208: [HNOI2004]宠物收养所(BST)
- BJFU 1397 致我们终将逝去的爱情
- 整合最优雅SSM框架:SpringMVC + Spring + MyBatis
- hi3531芯片的标识寄存器
- java并发包分析之———concurrentHashMap
- unity 的一些API-01
- Android UI(二)DridView的菜单
- what's the python之内置函数
- oracle查询每隔5分钟区间内的数据量
- NOIP 2016 天天爱跑步 (luogu 1600 &; uoj 261) - 线段树