HttpErrorMiddleware

scrapy.spidermiddlewares.httperror.HttpErrorMiddleware

过滤掉不成功(错误)的HTTP响应,以便蜘蛛不必处理它们,这些(大多数时候)会产生开销,消耗更多资源,并使蜘蛛逻辑更复杂。

根据HTTP标准,成功的响应是那些状态代码在200-300范围内的响应。

如果您仍希望处理该范围之外的响应代码,则可以使用handle_httpstatus_listspider属性或HTTPERROR_ALLOWED_CODES设置指定spider能够处理的响应代码 。

例如,如果您希望蜘蛛处理404响应,您可以执行以下操作:

class MySpider(CrawlSpider):

    handle_httpstatus_list = [404]

即在settings中增加HTTPERROR_ALLOWED_CODES = [403], HTTPERROR_ALLOWED_CODES默认是[]

所述handle_httpstatus_list的键Request.meta也可以被用于指定的响应代码,以允许在每个请求基础。您还可以设置meta键handle_httpstatus_all 来True,如果你想以允许请求的任何响应代码。

但请记住,处理非200响应通常是一个坏主意,除非你真的知道你在做什么。

最新文章

  1. iOS 添加中文支持的操作
  2. jQuery datatables
  3. VMware下虚拟机的转移
  4. 用NotePad如何实现大小写转换
  5. BZOJ1070 [SCOI2007]修车
  6. ios app的真机调试与发布配置
  7. Why did Jimmy Wales invest in Quora? Is he afraid that it will take over Wikipedia?
  8. sourcemap的使用
  9. TCP之Socket的编程
  10. js图片放大镜 可动态更换图片
  11. CSS3匹配屏幕横竖状态
  12. Data Mining 概念
  13. U3D 自带navmesh自动寻路教学
  14. linux下svn用法
  15. Extjs6(四)——侧边栏导航根据路由跳转页面
  16. uva 1378 - A Funny Stone Game(组合游戏)
  17. 代码优化>>>Android ListView适配器三级优化详解
  18. angularjs i18n
  19. 位(bit)、字节(byte)、字符、编码之间的关系
  20. centos 安装oracle 11g r2(一)-----软件安装

热门文章

  1. java常见的面试题
  2. poj 2506 Tiling(大数+规律)
  3. 好记性不如烂笔头——.NET运行原理
  4. C++源码实现:21种常用设计模式
  5. case when in sql server's stored procedure
  6. HDU 5692 Snacks(DFS序+线段树)
  7. python Paramiko 模块远程管理主机
  8. Genuitec
  9. Building a Space Station(bfs)
  10. 棋盘问题(dfs)