1. 倒排索引简介

对于书通过目录查找对应章节内容的方式属于正排索引,而对于想查询文本,如我爱中国在书籍中出现的次数与具体位置,则是倒排索引的范畴。

2. 倒排索引核心组成
  • 单词词典(Term Dictionary)

    记录所有文档的单词,记录单词到倒排列表的关联关系。单词词典一般比较大,可以通过B+树或哈希拉链法实现,以满足高性能的插入和查询

  • 倒排列表(Posting List)

    记录了单词对应的文档集合,由倒排索引项组成:

    • 文档ID
    • 词频TF - 该单词在文档中出现的次数,用于相关性评分
    • 位置(Position) - 单词在文档中分词的位置。用于语句搜索
    • 偏移(Offset) - 记录单词的开始结束位置,用于高亮显示

ElasticSearch的JSON文档中的每个字段,都有自己的倒排索引。可以指定对某些字段不做索引,这样可以节省存储空间,但该字段无法被搜索

欢迎关注公众号算法小生沈健的技术博客

最新文章

  1. 浅谈JSON
  2. OpenGL函数思考-glLoadIdentity
  3. 谷歌和HTTPS
  4. ubuntu 14.04安装mysql server & mysql client
  5. MVC两个必懂核心
  6. IOS UIActivityIndicatorView 等待指示器
  7. Chapter 2 创建一个应用
  8. C#程序员整理的Unity 3D笔记(十五):Unity 3D UI控件至尊–NGUI
  9. [转] linux下的c/c++调试器gdb
  10. 5 HBase 常用Shell命令
  11. BZOJ 1208: [HNOI2004]宠物收养所(BST)
  12. BJFU 1397 致我们终将逝去的爱情
  13. 整合最优雅SSM框架:SpringMVC + Spring + MyBatis
  14. hi3531芯片的标识寄存器
  15. java并发包分析之———concurrentHashMap
  16. unity 的一些API-01
  17. Android UI(二)DridView的菜单
  18. what's the python之内置函数
  19. oracle查询每隔5分钟区间内的数据量
  20. NOIP 2016 天天爱跑步 (luogu 1600 & uoj 261) - 线段树

热门文章

  1. 6.14 YZBOI模拟赛solution
  2. Java学习--流程控制
  3. Luogu4111 [HEOI2015]小Z的房间 (矩阵树,辗转相除高斯消元)
  4. kali下安装Nessus
  5. HDU2065 “红色病毒”问题 (指数型母函数经典板题)
  6. 【mido】python的midi处理库
  7. 【JAVA】学习路径35-InputStream使用例子
  8. 简析XDP的重定向机制
  9. git rebase合并多个commit总结
  10. Docker 环境 Nacos2 MySQL8