避免被禁止(ban)

有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。

与这些规则打交道并不easy,须要技巧,有时候也须要些特别的基础。 假设有疑问请考虑联系 商业支持 。

以下是些处理这些网站的建议(tips):

  • 使用user agent池。轮流选择之中的一个来作为user agent。

    池中包括常见的浏览器的user agent(google一下一大堆)

  • 禁止cookies(參考 COOKIES_ENABLED),有些网站会使用cookies来发现爬虫的轨迹。

  • 设置下载延迟(2或更高)。

    參考 DOWNLOAD_DELAY 设置。

  • 假设可行,使用 Google cache 来爬取数据,而不是直接訪问网站。
  • 使用IP池。比如免费的 Tor项目 或付费服务(ProxyMesh)。
  • 使用高度分布式的下载器(downloader)来绕过禁止(ban),您就仅仅须要专注分析处理页面。这种样例有: Crawlera

最新文章

  1. 年终巨献 史上最全 ——LINQ to SQL语句
  2. androidSDK也要配置环境变量(转)
  3. object-c 1
  4. 【USACO 2.1.4】荷斯坦奶牛
  5. COJN 0484 800502电池的寿命
  6. 运行于64操作系统上的C#客户端通过WCF访问Oracle数据库不兼容问题
  7. 第一个Android crackme(2016-05)
  8. 1639: [Usaco2007 Mar]Monthly Expense 月度开支
  9. Android完全退出应用的方法
  10. django-微信小程序登录
  11. 2.04-proxy-handler
  12. 两个非空的<div>元素inline-block化后出现空白部分解决办法
  13. Kindel资源去哪里找
  14. day41-解决粘包问题
  15. css样式表2
  16. 转 git config命令使用
  17. JavaWeb快速入门
  18. [MyBean-说明书]关于插件的单件模式(singleton),插件的共享模式
  19. 磁盘IO过高时的处理办法
  20. git 查询某人的提交记录

热门文章

  1. Reset and Clear Recent Items and Frequent Places in Windows 10
  2. js原生淘宝京东宝贝放大镜效果
  3. C - Elephant(贪心)
  4. ManualResetEvent和AutoResetEvent的区别,分享来的
  5. 最影响APP软件质量和成本的三个方面。希望大家一定要记在心里!
  6. 转/ C# 托管资源和非托管资源
  7. springdatajpa使用informix数据库出现no such column 异常的问题
  8. MyProject
  9. React 学习笔记:1-react 入门
  10. JS去空格、截取页面url