Scrapy系列教程(6)------怎样避免被禁
2024-08-23 10:22:50
避免被禁止(ban)
有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。
与这些规则打交道并不easy,须要技巧,有时候也须要些特别的基础。 假设有疑问请考虑联系 商业支持 。
以下是些处理这些网站的建议(tips):
- 使用user agent池。轮流选择之中的一个来作为user agent。
池中包括常见的浏览器的user agent(google一下一大堆)
- 禁止cookies(參考 COOKIES_ENABLED),有些网站会使用cookies来发现爬虫的轨迹。
- 设置下载延迟(2或更高)。
參考 DOWNLOAD_DELAY 设置。
- 假设可行,使用 Google cache 来爬取数据,而不是直接訪问网站。
- 使用IP池。比如免费的 Tor项目 或付费服务(ProxyMesh)。
- 使用高度分布式的下载器(downloader)来绕过禁止(ban),您就仅仅须要专注分析处理页面。这种样例有: Crawlera
最新文章
- 年终巨献 史上最全 ——LINQ to SQL语句
- androidSDK也要配置环境变量(转)
- object-c 1
- 【USACO 2.1.4】荷斯坦奶牛
- COJN 0484 800502电池的寿命
- 运行于64操作系统上的C#客户端通过WCF访问Oracle数据库不兼容问题
- 第一个Android crackme(2016-05)
- 1639: [Usaco2007 Mar]Monthly Expense 月度开支
- Android完全退出应用的方法
- django-微信小程序登录
- 2.04-proxy-handler
- 两个非空的<;div>;元素inline-block化后出现空白部分解决办法
- Kindel资源去哪里找
- day41-解决粘包问题
- css样式表2
- 转 git config命令使用
- JavaWeb快速入门
- [MyBean-说明书]关于插件的单件模式(singleton),插件的共享模式
- 磁盘IO过高时的处理办法
- git 查询某人的提交记录