URL去重与文章去重的一些基本方法
2024-09-30 10:00:28
一、url去重
url存到数据库
所有url放到set中(一亿条占用9G内存)
md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法
bitmap方法(url经过hash后映射到bit的每一个位上,存在冲突,一亿url占用约12M)
bloomfilter(bitmap改进,多重hash解决冲突,一亿url占用)
二、文章相似度
1.有关重复的定义,如果完全一样,基本上你hash一下特征值就好
2. 如果不要完全一样,那就是概率学上的可能(80%他们可能是一样)。基础算法KMP算法,
LCS算法(这个有基本算法底子滴同学可以搞定)
3.真正的基于概率统计分类算法:贝叶斯算法等(这个你还是请专业的数计系滴硕士搞把,没两
把刷子滴人公式都看不懂滴)
最新文章
- ASP.NET Identity V2
- 浅谈五大Python Web框架
- MVC 4 异步编程简化了
- 关于jquery中的事件绑定bind()和live()
- 如果我用C#来输出99表
- 2014-3-5 星期三 [New Change &;&; New Start]
- Maven学习总结(五)——聚合与继承
- android:clipToPadding和android:clipChildren
- HDU-2196 Computer (树形DP)
- VB中的+与&;符号的区别
- [Node.js] Use ";prestart"; in scripts
- 我的Python成长之路---第七天---Python基础(21)---2016年2月27日(晴)
- Java实现敏感词过滤(转)
- eclipse中集成svn maven开发手册---创建提分支
- 『HTMl5』学习日志
- 5-STM32物联网开发WIFI(ESP8266)+GPRS(Air202)系统方案数据篇(配置保存数据的数据库)
- .net中使用 道格拉斯-普特 抽希轨迹点
- centos7安装jdk环境
- 在组件放使用v-model和slot插槽的简单实用
- 14 Zabbix Item类型之Simple checks类型
热门文章
- AcWing:239. 奇偶游戏(前缀和 + 离散化 + 带权并查集 + 异或性质 or 扩展域并查集 + 离散化)
- LINUX 字体查看 字体更改mkfontdir
- linux下编译利用CMakeLists.txt 编译C++写的opencv程序
- Linux安装elasticsearch5全过程(踩坑实录)
- Linux设备驱动程序 之 open和release
- vuejs2项目开发实战视频教程
- ora-01578
- centos 下启动 rabbitmq 报错的解决
- 用PHP自带函数对二维数组进行排序
- ubuntu 18.04 64bit下如何启动向日葵远程控制端软件?