随机IP代理插件Scrapy-Proxies
2024-09-05 11:49:04
安装:
pip install scrapy_proxies
github: https://github.com/aivarsk/scrapy-proxies
scrapy爬虫配置文件settings.py
:
# Retry many times since proxies often fail
RETRY_TIMES = 10
# Retry on most error codes since proxies fail for different reasons
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408] DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
'scrapy_proxies.RandomProxy': 100,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
} # Proxy list containing entries like
# http://host1:port
# http://username:password@host2:port
# http://host3:port
# 这是存放代理IP列表的位置
PROXY_LIST = '/path/to/proxy/list.txt' #代理模式
# 0 = Every requests have different proxy
# 1 = Take only one proxy from the list and assign it to every requests
# 2 = Put a custom proxy to use in the settings
PROXY_MODE = 0 #如果使用模式2,将下面解除注释:
#CUSTOM_PROXY = "http://host1:port"
使用方法: 将之前用Python爬到的代理IP列表存储到PROXY_LIST可以找到的位置;
几种PROXY_MODE里,可能0是最常用的;如果有哪个IP是特别稳定的话,应该使用2。
最新文章
- LINUX下编译源码时所需提前安装的常用依赖包列表
- 企业邮箱在Android(安卓)系统手机上POP3/IMAP协议的设置方法
- ASP.NET基础笔记
- 01-语言入门-01-A+B Problem
- get与post区别
- SPOJ220 Relevant Phrases of Annihilation
- 让office2003和office2010共存的方法【转】
- IO流的操作规律
- 不定期更新的CSS样式设置
- php提供的对称加密算法
- go defer (go延迟函数)
- 【转】linux服务器性能查看
- 笔记-Android中打开各种格式的文件(apk、word、excel、ppt、pdf、音视频、图片等)
- 查看hp小型机命令集
- DOM时钟
- 北京Uber优步司机奖励政策(4月19日)
- pat1040:有几个PAT
- 文件批量加密重命名--python脚本AND mysql命令行导入数据库
- codevs 2488 绿豆蛙的归宿
- 01-开始使用django(全、简)