Scrapy的CloseSpider扩展会在满足条件时自动终止爬虫程序。可以设置CLOSESPIDER_TIMEOUT(秒)、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNT、CLOSESPIDER_ERRORCOUNT分别代表在指定时间过后、在抓取了指定数目的Item之后、在收到了指定数目的响应之后、在发生了指定数目的错误之后就终止爬虫程序。通常情况下可以在命令行中设置:

$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10
$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_ERRORCOUNT=10

最新文章

  1. 微服务与Docker介绍
  2. Xcode快捷键
  3. testing - 测试基本使用接口
  4. Mybatis 保错:Mapped Statements collection already contains value for jaxrs.dch.projects.y
  5. phpMyadmin /scripts/setup.php Execute Arbitrary PHP Code Via unserialize Vul Object Injection PMASA-2010-4
  6. ADO.NET连接到数据库(oracle)
  7. db2新建数据库
  8. VRP-Lua学习笔记
  9. Grunt:多个css,js,进行单独压缩
  10. Ormlite自定义db的位置和自动更新问题
  11. 正确Linux新手很实用20命令
  12. 剑指offer:2.二维数组的查找(Java版)
  13. centos 秘钥登陆配置
  14. Maven 项目不打包 *.hbm.xml 映射文件
  15. 【BZOJ3771】Triple(生成函数,多项式运算)
  16. C#多线程学习-求和
  17. Web.config配置文件详解(新手必看) (转载)
  18. Json对象与Json字符串互转(4种转换方式) jquery 以及 js 的方式
  19. POSIX多线程—线程基本概念
  20. Java易错知识点(1) - 关于ArrayList移除元素后剩下的元素会立即重排

热门文章

  1. 2018-10-8-3分钟教你搭建-gitea-在-Centos-服务器
  2. wish - 简单的窗口式(windowing) shell
  3. python -m引发的对模块的认识
  4. excel 导数据
  5. Idea中创建maven骨架的命令
  6. vsftp 被动模式配置
  7. BIO、NIO、AIO入门认识
  8. vue知识点汇总
  9. Unable to find explicit activity class报错问题解决方法
  10. Mac+VS Code+Git+Github