Scrapy处理200-300范围之外的响应代码
2024-09-05 14:43:39
HttpErrorMiddleware
- 类
scrapy.spidermiddlewares.httperror.
HttpErrorMiddleware
-
过滤掉不成功(错误)的HTTP响应,以便蜘蛛不必处理它们,这些(大多数时候)会产生开销,消耗更多资源,并使蜘蛛逻辑更复杂。
根据HTTP标准,成功的响应是那些状态代码在200-300范围内的响应。
如果您仍希望处理该范围之外的响应代码,则可以使用handle_httpstatus_list
spider属性或HTTPERROR_ALLOWED_CODES
设置指定spider能够处理的响应代码 。
例如,如果您希望蜘蛛处理404响应,您可以执行以下操作:
class MySpider(CrawlSpider):
handle_httpstatus_list = [404]
即在settings中增加HTTPERROR_ALLOWED_CODES = [403], HTTPERROR_ALLOWED_CODES默认是[]
所述handle_httpstatus_list
的键Request.meta
也可以被用于指定的响应代码,以允许在每个请求基础。您还可以设置meta键handle_httpstatus_all
来True
,如果你想以允许请求的任何响应代码。
但请记住,处理非200响应通常是一个坏主意,除非你真的知道你在做什么。
最新文章
- iOS 添加中文支持的操作
- jQuery datatables
- VMware下虚拟机的转移
- 用NotePad如何实现大小写转换
- BZOJ1070 [SCOI2007]修车
- ios app的真机调试与发布配置
- Why did Jimmy Wales invest in Quora? Is he afraid that it will take over Wikipedia?
- sourcemap的使用
- TCP之Socket的编程
- js图片放大镜 可动态更换图片
- CSS3匹配屏幕横竖状态
- Data Mining 概念
- U3D 自带navmesh自动寻路教学
- linux下svn用法
- Extjs6(四)——侧边栏导航根据路由跳转页面
- uva 1378 - A Funny Stone Game(组合游戏)
- 代码优化>;>;>;Android ListView适配器三级优化详解
- angularjs i18n
- 位(bit)、字节(byte)、字符、编码之间的关系
- centos 安装oracle 11g r2(一)-----软件安装