scrapy如果抓取太频繁了,就被被封IP,目前有以下主要策略保证不会被封:

  • 策略1:设置download_delay下载延迟,数字设置为5秒,越大越安全
  • 策略2:禁止Cookie,某些网站会通过Cookie识别用户身份,禁用后使得服务器无法识别爬虫轨迹
  • 策略3:使用user agent池。也就是每次发送的时候随机从池中选择不一样的浏览器头信息,防止暴露爬虫身份
  • 策略4:使用IP池,这个需要大量的IP资源,貌似还达不到这个要求
  • 策略5:分布式爬取,这个是针对大型爬虫系统的,对目前而言我们还用不到。
  • 策略6:伪造x-forward-for,伪装自身为代理,让服务器不认为你是爬虫

最新文章

  1. NOI 4976:硬币
  2. C# JIT & AOT
  3. [转]深入理解Java 8 Lambda(语言篇——lambda,方法引用,目标类型和默认方法)
  4. eclipse启动tomcat错误:A Java Exception has occurred(转)
  5. wampserver下修改mysql root用户的登录密码
  6. HTML5表单新增属性
  7. php反射应用实例代码
  8. PHP strlen() 函数
  9. python对拍程序
  10. jquery navi
  11. PCB成型製程介紹
  12. java中关于log日志
  13. 利用nginx 虚拟主机、请求转发实现不同端口web访问
  14. U-Boot内存管理
  15. Lab 10-2
  16. 如何把web.xml中的context-param、Servlet、Listener和Filter定义添加到SpringBoot中
  17. 【bzoj3064】 CPU监控
  18. centos6.5下安装jdk并配置环境变量
  19. Python 静态方法
  20. MyBatis踩坑记录

热门文章

  1. 在angular项目中使用bootstrap的tooltip插件时,报错Property 'tooltip' does no t exist on type 'JQuery<HTMLElement>的解决方法和过程
  2. 一起探讨下POST、GET请求
  3. Spring MVC请求参数绑定 自定义类型转化 和获取原声带额servlet request response信息
  4. 分布式-技术专区-Redis分布式锁实现-第一步
  5. bootstrap学习(三)表单
  6. MVC5+EF6 完整教程
  7. RocketMQ事务性消息
  8. Puppeteer自动化批量上传抖音视频
  9. shell只读变量
  10. python使用SMTP发邮件时使用Cc(抄送)和Bcc(密送)