索引原理

  全文检索技术由来已久,绝大多数都基于倒排索引来做,曾经也有过一些其他方案如文件指纹。倒排索引,顾名思义,它相反于一篇文章包含了哪些词,它从词出发,记载了这个词在哪些文档中出现过,由两部分组成——词典和倒排表。

  其中词典结构尤为重要,有很多种词典结构,各有各的优缺点,最简单如排序数组,通过二分查找来检索数据,更快的有哈希表,磁盘查找有B树、B+树,但一个能支持TB级数据的倒排索引结构需要在时间和空间上有个平衡,下图列了一些常见词典的优缺点:

FST
  Lucene现在使用的索引结构

最新文章

  1. 解决.NET Core中MailKit无法使用阿里云邮件推送服务的问题
  2. Android Dialogs(6)Dialog类使用示例:用系统theme和用自定义的theme
  3. C# 类是怎么执行的?
  4. 编程是一项需要时间来掌握的技能(Anders的经验)
  5. 浅析WebGIS
  6. NotificationManager 发送通知
  7. hadoop使用笔记
  8. 借助VBScript让Windows系统发出声音
  9. Html5笔记之第四天
  10. Java内部类与外部类
  11. python 模块 SQLalchemy
  12. MAC IDEA mybatis 逆向工程 无结果文件
  13. HDU 6345(子串查询 暴力)
  14. BZOJ3295:[CQOI2011]动态逆序对(CDQ分治)
  15. 使用ts-loader与webpack编译typescripts出现Module build failed: TypeError: Cannot read property 'afterCompile' of undefined
  16. Linux的SSH免密登录认证过程研究
  17. spring有关jar包的作用
  18. android tools相关
  19. 我对android 软件栈了解
  20. Idea导出可运行Jar包

热门文章

  1. 浏览器的F5和Ctrl+F5
  2. oracle11.2.0.1 deferred_segment_creation 造成exp imp 空表无法导出的问题
  3. iphone 与 PC端电脑投屏设置
  4. 无法定位程序输入点 zend_empty_string php7.dll
  5. WMS与MES集成
  6. 转载《ionic 热更新 cordova-hot-code-push》
  7. delphi 通过事务插入数据
  8. python之zip函数和sorted函数
  9. Lodop打印控件输出页码(超文本和纯文本页码)
  10. Systemed systemctl 创建服务 详解