1.增加并发:
默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 2.降低日志级别:
在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:LOG_LEVEL = ‘INFO’ 3.禁止cookie:
如果不是真的需要cookie,则在scrapy爬取数据时可以进制cookie从而减少CPU的使用率,提升爬取效率。在配置文件中编写:COOKIES_ENABLED = False 4.禁止重试:
对失败的HTTP进行重新请求(重试)会减慢爬取速度,因此可以禁止重试。在配置文件中编写:RETRY_ENABLED = False 5.减少下载超时:
如果对一个非常慢的链接进行爬取,减少下载超时可以能让卡住的链接快速被放弃,从而提升效率。在配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 超时时间为10s

  

最新文章

  1. canvas链式弹性运动
  2. R-FCN、SSD、YOLO2、faster-rcnn和labelImg实验笔记(转)
  3. Filezilla无法确定拖放操作目标,由于shell未正确安装__解决办法
  4. 创建一个ROS msg
  5. BZOJ 3260 跳
  6. ArrayAdapter的简单使用
  7. 【C++】第 1 章:C++基础知识
  8. CSS Clip属性
  9. Beauty of Array(思维)
  10. 微信小程序代码构成
  11. mybatisplus ssm配置要点
  12. php 根据输入的参数,获取上季度最后一个月的时间
  13. springboot 集成 jpa/hibernate
  14. [BZOJ1814]Formula 1
  15. [py]letcode第一题求和
  16. C#通过Oracle.ManagedDataAccess无法访问Oralce
  17. Python 字节码是什么
  18. 1020 Tree Traversals (25)(25 point(s))
  19. C#进阶系列——WebApi 异常处理解决方案(转)
  20. 火影忍者之~鸣人 (字符串处理,strcmp)

热门文章

  1. 以POST方式发送
  2. 第一次刷leetcode小结
  3. python,装饰器带参数,原理
  4. java基础之 修饰符
  5. MySQL加号+ 的作用
  6. S3C2440之存储控制器学习记录
  7. selenium自动化之加载浏览器配置文件
  8. Android开发实战——记账本(3)
  9. HDU 3530
  10. linux中systemctl详细理解及常用命令