Scrapy学习-15-降低被识别为爬虫的方法
2024-09-27 06:19:36
3种常见的方法
1. 在settings中配置禁用cookies
COOKIES_ENABLED = False
2. scrapy限速处理,scrapy为我们提供了扩展模块,它能动态的限制下载速度
# http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/autothrottle.html # 在settings中配置的参数 AUTOTHROTTLE_ENABLED = True # 启用AutoThrottle扩展 AUTOTHROTTLE_START_DELAY = 5.0 # 初始下载延迟(单位:秒) AUTOTHROTTLE_MAX_DELAY = 60.0 # 在高延迟情况下最大的下载延迟(单位秒) AUTOTHROTTLE_DEBUG = True # 起用AutoThrottle调试(debug)模式,展示每个接收到的response。 您可以通过此来查看限速参数是如何实时被调整的
3. 在不同的spider中,配置不同的settings参数
# 例如有些网站不需要cookie,有些网站必须使用cookie # 在我们的spider类中,配置我们的类变量custom_settings = {} class TestSpider(scrapy.Spider): custom_settings = {
"COOKIES_ENABLED": True,
"AUTOTHROTTLE_ENABLED": True,
}
最新文章
- Web安全相关(五):SQL注入(SQL Injection)
- C#之索引器
- NPOI 操作Excel
- EPANET中读取INPUT文件的函数文件——INPUT1.C/INPUT2.C/INPUT3.C
- 【转】WinForm不同版本覆盖安装
- 在EXCEL中使用SQL查询
- USACO Section 3.1: Agri-Net
- 使用Git push时出现的一些问题处理
- 神奇的match和replace
- jQuery validate入门
- HDU 5073 Galaxy (2014 Anshan D简单数学)
- ubuntu16.04-x64系统中Jexus web server部署.NetCore和端口分析引发的猜想!
- 5.volatile的应用
- python学习记录 - python3.x中如何实现print不换行
- Oracle数据库升级注意事项
- 55行代码实现Java线程死锁
- 【原创】大数据基础之Flume(2)应用之kafka-kudu
- cocos2dx为Sprite添加触摸事件监听器
- 树莓派安装cobbler,自动化安装CentOS
- Hive高级聚合GROUPING SETS,ROLLUP以及CUBE
热门文章
- 有重复元素的排列(DFS)
- windows 2008r2+php5.6.28环境搭建详细过程
- LeetCode(224) Basic Calculator
- Educational Codeforces Round 53 (Rated for Div. 2) C Vasya and Robot 二分
- 如何从Maven中央存储库下载?
- 教你玩App怎么赚钱(一)
- 图解spring事务管理的实现
- Leetcode21--->;Merge Two Sorted Lists(合并两个排序的单链表)
- [Oracle] Lob介绍
- LoadRunner web_set_sockets_option()--常用函数