爬虫前奏——代理ip的使用
2024-09-07 07:57:11
如果同一个IP短时间内多次访问统一网页,可能会被系统识别出是爬虫,因此使用代理IP可以很大程度上解决这一问题
常用的代理有:
西刺免费代理:www.xicidaili.com
快代理:www.kuaidaili.com
代理云:www.dailiyun.com
那么我们如何知道自己的代理IP是否已经成功使用了呢?
很简单www.httpbin.org为我们提供了这个功能。www.http.org上可以看到我们访问网站所有提交的信息,在www.httpbin.org/ip上可以看到我们所需要的IP信息,如图
那么我们开始
我们使用以下免费代理
编写代码如下
from urllib import request
#没有使用代理
url='http://www.httpbin.org/ip'
resp = request.urlopen(url)
print(resp.read())
#使用代理的
url='http://www.httpbin.org/ip'
# 1.使用ProxyHandler,传入代理构建一个handler
headler = request.ProxyHandler({'http':'223.244.45.134:65309'})
# 2. 使用上面构建的handler构建一个opner
opner = request.build_opener(headler)
# 3. 使用opener去发送一个请求
resp = opner.open(url)
print(resp.read())
需要导入urllib下的request库这是python自带的
headler = request.ProxyHandler({'http':'223.244.45.134:65309'})
需要注意的是ProxyHandler()参数由字典组成:http 与 ip地址均由上面的服务商提供,“65309”为开放的端口号。
运行得到以下结果
b'{\n "origin": "124.160.219.5"\n}\n'
b'{\n "origin": "36.6.92.28"\n}\n'
说明我的代理ip使用成功了 注意:有可能因为免费的代理ip不稳定而导致错误的发生,毕竟免费的总是要出问题的。
以上内容有本人编写,如有转载请标明出处
最新文章
- iOS开发之如何跳到系统设置里的各种设置界面
- strcpy strlen memcpy等的函数实现
- Discovering the Computer Science Behind Postgres Indexes
- 【转】Android M新控件之AppBarLayout,NavigationView,CoordinatorLayout,CollapsingToolbarLayout的使用
- 《30天自制操作系统》05_day_学习笔记
- (转)C#执行exe程序
- selenium--上传图片
- 查看Linux系统网卡信息
- jboss部署出现MarshalOutputStream找不到错误
- vim 跳转命令
- 让一个WebRole支持多个站点
- JavaScript设计模式之单例模式
- js取整
- zf-中间库(xzfw_xzjc_jianshi)
- 201521123015 《Java程序设计》第2周学习总结
- LNMP1.3 一键配置环境,简单方便
- vue富文本编辑器
- np.corrcoef()方法计算数据皮尔逊积矩相关系数(Pearson's r)
- Java队列——线程池创建的例子
- IntraWeb XIV 类型速查表