提高Scrapy爬取效率
2024-09-05 00:11:48
1.增加并发:
默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 2.降低日志级别:
在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:LOG_LEVEL = ‘INFO’ 3.禁止cookie:
如果不是真的需要cookie,则在scrapy爬取数据时可以进制cookie从而减少CPU的使用率,提升爬取效率。在配置文件中编写:COOKIES_ENABLED = False 4.禁止重试:
对失败的HTTP进行重新请求(重试)会减慢爬取速度,因此可以禁止重试。在配置文件中编写:RETRY_ENABLED = False 5.减少下载超时:
如果对一个非常慢的链接进行爬取,减少下载超时可以能让卡住的链接快速被放弃,从而提升效率。在配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 超时时间为10s
最新文章
- canvas链式弹性运动
- R-FCN、SSD、YOLO2、faster-rcnn和labelImg实验笔记(转)
- Filezilla无法确定拖放操作目标,由于shell未正确安装__解决办法
- 创建一个ROS msg
- BZOJ 3260 跳
- ArrayAdapter的简单使用
- 【C++】第 1 章:C++基础知识
- CSS Clip属性
- Beauty of Array(思维)
- 微信小程序代码构成
- mybatisplus ssm配置要点
- php 根据输入的参数,获取上季度最后一个月的时间
- springboot 集成 jpa/hibernate
- [BZOJ1814]Formula 1
- [py]letcode第一题求和
- C#通过Oracle.ManagedDataAccess无法访问Oralce
- Python 字节码是什么
- 1020 Tree Traversals (25)(25 point(s))
- C#进阶系列——WebApi 异常处理解决方案(转)
- 火影忍者之~鸣人 (字符串处理,strcmp)