Lucene01--倒排索引思想
Lucene01--倒排索引思想
1、 倒排索引的概念:
首先对数据按列拆分存储,然后对文档中的数据分词,对词条进行索引,并记录词条在文档中出现的位置。这样查找时只要找到了词条,就找到了对应的文档。概括来讲是先找到词条,然后看看哪些文档包含这些词条。
1.1 文档(Document):
索引库中的每一条原始数据,例如一个网页信息,一件商品信息。
1.2 词条:
原始数据按照算法进行分词,得到的每一个词。
2、 创建倒排索引流程
2.1 获得文档:比如要存储文章
2.2 创建文档列表
首先将数据按列进行拆分存储,类似于mysql的表存储,每一条数据,就是一个文档,形成文档列表。
假设文章有编号(docId)、标题(title)、内容(content)、评分(score)。每一条数据就是一篇文章。
2.3 创建倒排索引列表
然后对文档中的数据根据分词规则经常分词,得到词条。对词条进行编号,并以词条创建索引。然后记录下包含该词条的所有文档编号(以及其它信息)。
比如按照title字段进行分词
词ID 词典 词所对应的文档id 词所对应的字段(域)
1 我的 1,2,3 title
2 祖国 1 title
3 家乡 2 title
4 女友 3 title
整体流程如下
3、 搜索流程
3.1 当用户输入任意的搜索关键词时,首先对用户输入的内容进行词拆分,得到要搜索的所有词条,比如用户根据标题搜索“我的老友”,拆分后就是“我的”、“老友”
3.2 然后拿着这些拆分后的词去倒排索引列表中进行匹配。找到这些词对应的所有文档编号。
3.3 最后根据这些编号去文档列表中找到文档
4、 索引库
一个索引:一张文档列表 + 一张倒排索引表。
创建索引的流程也就是创建倒排索引的流程。
5、 什么是Lucene?
如果理解了倒排索引思想,我们再来看看到底什么是Lucene?
Lucene是一个基于java开发全文检索工具包。
5.1 全文检索
5.1.1 定义1:全文检索是利用倒排索引技术对需要搜索的数据进行处理,然后提供快速匹配的技术。
5.1.2 定义2:先创建索引然后对索引进行搜索的过程,就是全文检索。
欢迎评论!
最新文章
- Android学习笔记50:使用WebView控件浏览网页
- .bash_profile for mac‘ envionment variables
- [工具类]文件或文件夹xx已存在,则重命名为xx(n)
- [百度空间] [转]DLL地狱及其解决方案
- Ios 程序封装,安装流程
- build-essential
- Oracle数据库之PL/SQL触发器
- Qt for Mac:发布程序(widgets和quick2)
- humble number(hd1058)
- JavaScript 中的事件对象(读书笔记思维导图)
- java 邮件收发 (只能输入英文,中文需要转码)
- 运行容器的最佳实践 - 每天5分钟玩转 Docker 容器技术(24)
- Spring详解(一)------概述
- python导入模块时的执行顺序
- mysql中的union和order by、limit
- (十七)java冒泡排序和compareto
- AE插件:能量激光描边光效特效Saber Mac汉化版
- Android Studio 将文件打包成APK
- php一次性大量数据入库解决方法
- [Web 前端] superagent-nodejs处理请求的模块
热门文章
- Advanced Installer 安装前卸载旧版本的办法
- 【转】ORACLE AWR报告
- vs的一个不经常用的快捷键
- Android零基础入门第81节:Activity数据传递
- jQuery ui autocomplete选择列表被Bootstrap模态窗遮挡的完美解决方法
- CrashRpt_v.1.4.2_vs2008_also_ok
- UISearchController 的大坑
- Laravel --- Laravel5.3 和 Workerman结合使用(异步)
- Java系统架构师学习体系图
- 算法与数据结构基础 - 队列(Queue)