es的核心原理 (一)
2024-10-12 11:04:40
搜索引擎
搜索引擎的分类
全文搜索:谷歌、百度、必应;这种搜索过程到底搜索啥,不知道,有可能是个帖子,也有可能是个门户网站
垂直搜索:视频网站、各大电商;这种搜索内容是固定的,比如在懂车帝,你搜索的一定就是汽车
搜索引擎应该具备的要求
查询速度快
- 高效的压缩算法
- 快速的编码和解码速度
结果准确
- BM25(默认的算法)
- TF-IDF(7.0 之前的算法)
检索结果丰富
如何提高搜索引擎的查询数据?答:建立索引
索引的作用:
帮助快速检索
以数据结构为载体
以文件的形式落地
倒排索引的数据结构
词项索引 | 词项字典 | 倒排表 |
---|---|---|
term index | term dictionary | posting list |
FST压缩算法,极大的节省内存。 最高压缩可达20%,接近于hash |
倒排表、词频 | 有序数组,存储了匹配某个 term 的所有 id |
参考文献
https://www.bilibili.com/video/BV1h3411P7cM?p=6&vd_source=3dc6fb647e2c5c53b8a9c4662114a8ea
最新文章
- juery学习6——焦点事件
- 【leetcode】两数之和
- python 3 学习笔记(一)
- 2-5. Working with Compile Time Constants
- addrinfo 结构
- debian vi
- 阅读《Effective C++》系列
- C# - JSON操作
- CAPI HTTP服务搭建(文件在本机)
- Mysql笔记——DML
- Xcode-Xcode 7.3 解决不能自动联想问题-备
- Linux Bootup Time
- 服务器端语言go之开篇分享
- Java之文本文件的创建和读取(含IO流操作)
- sql server 2008 windows验证改混合登陆中SqlServer身份验证用户名密码
- 基于线程池的多并发Socket程序的实现
- openCV基础知识
- C#中的volatile关键字
- MySql 自适应哈希索引
- BZOJ1047:[HAOI2007]理想的正方形
热门文章
- uboot启动过程 3
- 安卓逆向 IDA 动态调试 案例1
- Vue3 企业级优雅实战 - 组件库框架 - 12 发布开源组件库
- Window10环境下,Stable Diffusion的本地部署与效果展示
- [NOI Online 2022 提高组] 如何正确地排序
- JZOJ 3213. 【SDOI2013】直径
- 生物制剂时代的SpA研究正站在十字路口_Appel,Sieper2009
- 基于C++的OpenGL 02 之着色器
- ve-plus:基于 vue3.x 桌面端UI组件库|vue3组件库
- 手机在线编程软件Anycodes