写了个爬虫代理ip的脚本给大家使用
2024-09-02 00:05:42
写了个爬虫代理ip的脚本给大家使用
一.代码
import requests
from lxml.html import etree
url = 'http://www.kuaidaili.com/free/'
rp =requests.get(url)
rp_html = etree.HTML(rp.text)
#找xpath
ip_xpath = '//*[@id="list"]/table/tbody/tr/td[1]/text()'
port_xpath = '//*[@id="list"]/table/tbody/tr/td[2]/text()'
http_or_https_xpath ='//*[@id="list"]/table/tbody/tr/td[4]/text()'
#匹配内容
ip_list = rp_html.xpath(ip_xpath)
port_list = rp_html.xpath(port_xpath)
http_or_https_list = rp_html.xpath(http_or_https_xpath)
#进行组合
list_zip = zip(ip_list,port_list,http_or_https_list)
proxy_dict= {}
proxy_list = []
for ip,port,http_or_https in list_zip:
proxy_dict[http_or_https] = f'{ip}:{port}'
proxy_list.append(proxy_dict)
proxy_dict = {}
print(proxy_list)
#list就是啦,你们可以用random模块随机选一个进行后续的爬取
#一页不够嘛那我们就爬十写
#先看规则
'''
第一页:https://www.kuaidaili.com/free/inha/1/
第二页: https://www.kuaidaili.com/free/inha/2/
后面就不用说了吧
'''
http://www.kuaidaili.com/free/
这个ip代理网站不错哈
最新文章
- Reactjs的Controller View模式
- Logistic回归分类算法原理分析与代码实现
- Package Control Installation
- 【Java EE 学习 21 下】【使用java实现邮件发送、邮件验证】
- Linux内核分析之操作系统是如何工作的
- [SAP ABAP开发技术总结]搜索帮助Search Help (F4)
- openstack rc
- Java 取整
- 用sp_change_users_login消除Sql Server的孤立用户
- Filter及FilterChain的使用具体解释
- Redis被攻击
- 【ios开发】自定义Actionsheet实现时间选择器和省市区选择器
- JDBC的批处理操作三种方式
- apache泛域名解析
- JDBC存储和读取二进制数据
- OAF隐藏显示题头
- android 可以精确到秒级的时间选择器
- 配置logback
- 技巧:Vim 的纵向编辑模式【转】
- 【亲测】<;g++/gcc>;CentOS下g++: command not found问题的解决(c++环境安装)