【论文标题】Combating Web Spam with TrustRank (Proceedings 2004 VLDB Conference

【论文作者】Zolt´an Gy¨ongyi,Hector Garcia-Molina, Jan Pedersen

【论文链接】Paper (12-pages // Double column) https://www.sciencedirect.com/science/article/pii/B9780120884698500528

      PaperBDY(21-pages // Single column)

【摘要】

  Web垃圾邮件页面使用各种技术在搜索引擎的结果中获得高于应得的排名。虽然人类专家可以识别垃圾邮件,但手动评估大量页面的成本太高了。相反,我们建议使用一些技术,将有信誉的、好的页面与垃圾邮件分离开来。我们首先选择一组小的种子页,由专家来评估。一旦我们手动识别有信誉的种子页面,我们就会使用web的链接结构来覆盖其他可能很好的页面。在本文中,我们讨论了实现种子选择和发现好的页面的可能方法。我们展示了在AltaVista索引的万维网上运行的实验结果,并评估我们的技术的性能。我们的结果表明,我们可以有效地过滤掉大量网络上的垃圾邮件,这是基于一个不到200个站点的良好种子集。

最新文章

  1. High Frequency Trading (整理中...)
  2. [C++] 在Visual Studio工程中管理C++第三方库
  3. Android--获取使用的总流量和每个App的上传、下载的流量
  4. asp.net 创建文字特效
  5. hdu 1172 猜数字(暴力枚举)
  6. 排序,求几个最值问题,输入n个整数,输出其中最小的k个元素。
  7. Zabbix探索:网络设备监控1
  8. Android的Manifest配置文件介绍
  9. Python中的深浅拷贝,赋值及引用
  10. java日历程序版本
  11. Hadoop 2.6.0分布式部署參考手冊
  12. Why deep learning?
  13. Ubuntu Server 12.04(14.04) 静态IP简洁配置
  14. springboot打包去除资源文件,启动时指定配置文件位置,使用log4j2替换默认logback
  15. OneinStack——PHP多版本共存
  16. 基于注解的Spring事务配置
  17. java,利用Selenium调用浏览器,动态模拟浏览器事件,动态获取页面信息
  18. C# 将本地文件远程拷贝到其他电脑(转)
  19. ubuntu下msmtp+mutt的安装和配置
  20. UI设计文本框解决Placeholder的在IE10 以下 IE 9 IE8 IE 7 的兼容问题

热门文章

  1. Linux下配置nfs并远程挂载
  2. 解决 win7 注册com组件失败问题
  3. 转:Logistic regression (逻辑回归) 概述
  4. MFC中的KillTimer
  5. Mongo = get size of single document
  6. Node.js中针对中文的查找和替换无效的解决方法
  7. 在Excel中输入超过10的带圈数字
  8. ZH奶酪:PHP 使用DOMDocument抓取网页
  9. vs 15 key
  10. sqlalchemy 获取计数 count