一、url去重
url存到数据库
所有url放到set中(一亿条占用9G内存)
md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法
bitmap方法(url经过hash后映射到bit的每一个位上,存在冲突,一亿url占用约12M)
bloomfilter(bitmap改进,多重hash解决冲突,一亿url占用)

二、文章相似度
1.有关重复的定义,如果完全一样,基本上你hash一下特征值就好
2. 如果不要完全一样,那就是概率学上的可能(80%他们可能是一样)。基础算法KMP算法,
LCS算法(这个有基本算法底子滴同学可以搞定)
3.真正的基于概率统计分类算法:贝叶斯算法等(这个你还是请专业的数计系滴硕士搞把,没两
把刷子滴人公式都看不懂滴)

最新文章

  1. ASP.NET Identity V2
  2. 浅谈五大Python Web框架
  3. MVC 4 异步编程简化了
  4. 关于jquery中的事件绑定bind()和live()
  5. 如果我用C#来输出99表
  6. 2014-3-5 星期三 [New Change && New Start]
  7. Maven学习总结(五)——聚合与继承
  8. android:clipToPadding和android:clipChildren
  9. HDU-2196 Computer (树形DP)
  10. VB中的+与&符号的区别
  11. [Node.js] Use "prestart" in scripts
  12. 我的Python成长之路---第七天---Python基础(21)---2016年2月27日(晴)
  13. Java实现敏感词过滤(转)
  14. eclipse中集成svn maven开发手册---创建提分支
  15. 『HTMl5』学习日志
  16. 5-STM32物联网开发WIFI(ESP8266)+GPRS(Air202)系统方案数据篇(配置保存数据的数据库)
  17. .net中使用 道格拉斯-普特 抽希轨迹点
  18. centos7安装jdk环境
  19. 在组件放使用v-model和slot插槽的简单实用
  20. 14 Zabbix Item类型之Simple checks类型

热门文章

  1. AcWing:239. 奇偶游戏(前缀和 + 离散化 + 带权并查集 + 异或性质 or 扩展域并查集 + 离散化)
  2. LINUX 字体查看 字体更改mkfontdir
  3. linux下编译利用CMakeLists.txt 编译C++写的opencv程序
  4. Linux安装elasticsearch5全过程(踩坑实录)
  5. Linux设备驱动程序 之 open和release
  6. vuejs2项目开发实战视频教程
  7. ora-01578
  8. centos 下启动 rabbitmq 报错的解决
  9. 用PHP自带函数对二维数组进行排序
  10. ubuntu 18.04 64bit下如何启动向日葵远程控制端软件?