提前关闭Scrapy爬虫的设置
2024-09-06 12:01:57
Scrapy的CloseSpider扩展会在满足条件时自动终止爬虫程序。可以设置CLOSESPIDER_TIMEOUT(秒)、CLOSESPIDER_ITEMCOUNT、CLOSESPIDER_PAGECOUNT、CLOSESPIDER_ERRORCOUNT分别代表在指定时间过后、在抓取了指定数目的Item之后、在收到了指定数目的响应之后、在发生了指定数目的错误之后就终止爬虫程序。通常情况下可以在命令行中设置:
$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10
$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_ERRORCOUNT=10
最新文章
- 微服务与Docker介绍
- Xcode快捷键
- testing - 测试基本使用接口
- Mybatis 保错:Mapped Statements collection already contains value for jaxrs.dch.projects.y
- phpMyadmin /scripts/setup.php Execute Arbitrary PHP Code Via unserialize Vul Object Injection PMASA-2010-4
- ADO.NET连接到数据库(oracle)
- db2新建数据库
- VRP-Lua学习笔记
- Grunt:多个css,js,进行单独压缩
- Ormlite自定义db的位置和自动更新问题
- 正确Linux新手很实用20命令
- 剑指offer:2.二维数组的查找(Java版)
- centos 秘钥登陆配置
- Maven 项目不打包 *.hbm.xml 映射文件
- 【BZOJ3771】Triple(生成函数,多项式运算)
- C#多线程学习-求和
- Web.config配置文件详解(新手必看) (转载)
- Json对象与Json字符串互转(4种转换方式) jquery 以及 js 的方式
- POSIX多线程—线程基本概念
- Java易错知识点(1) - 关于ArrayList移除元素后剩下的元素会立即重排