scrapy主要防止封IP策略
2024-10-06 13:17:43
scrapy如果抓取太频繁了,就被被封IP,目前有以下主要策略保证不会被封:
- 策略1:设置download_delay下载延迟,数字设置为5秒,越大越安全
- 策略2:禁止Cookie,某些网站会通过Cookie识别用户身份,禁用后使得服务器无法识别爬虫轨迹
- 策略3:使用user agent池。也就是每次发送的时候随机从池中选择不一样的浏览器头信息,防止暴露爬虫身份
- 策略4:使用IP池,这个需要大量的IP资源,貌似还达不到这个要求
- 策略5:分布式爬取,这个是针对大型爬虫系统的,对目前而言我们还用不到。
- 策略6:伪造x-forward-for,伪装自身为代理,让服务器不认为你是爬虫
最新文章
- NOI 4976:硬币
- C# JIT &; AOT
- [转]深入理解Java 8 Lambda(语言篇——lambda,方法引用,目标类型和默认方法)
- eclipse启动tomcat错误:A Java Exception has occurred(转)
- wampserver下修改mysql root用户的登录密码
- HTML5表单新增属性
- php反射应用实例代码
- PHP strlen() 函数
- python对拍程序
- jquery navi
- PCB成型製程介紹
- java中关于log日志
- 利用nginx 虚拟主机、请求转发实现不同端口web访问
- U-Boot内存管理
- Lab 10-2
- 如何把web.xml中的context-param、Servlet、Listener和Filter定义添加到SpringBoot中
- 【bzoj3064】 CPU监控
- centos6.5下安装jdk并配置环境变量
- Python 静态方法
- MyBatis踩坑记录
热门文章
- 在angular项目中使用bootstrap的tooltip插件时,报错Property &#39;tooltip&#39; does no t exist on type &#39;JQuery<;HTMLElement>;的解决方法和过程
- 一起探讨下POST、GET请求
- Spring MVC请求参数绑定 自定义类型转化 和获取原声带额servlet request response信息
- 分布式-技术专区-Redis分布式锁实现-第一步
- bootstrap学习(三)表单
- MVC5+EF6 完整教程
- RocketMQ事务性消息
- Puppeteer自动化批量上传抖音视频
- shell只读变量
- python使用SMTP发邮件时使用Cc(抄送)和Bcc(密送)