写了个爬虫代理ip的脚本给大家使用

一.代码

import requests
from lxml.html import etree url = 'http://www.kuaidaili.com/free/'
rp =requests.get(url)
rp_html = etree.HTML(rp.text) #找xpath
ip_xpath = '//*[@id="list"]/table/tbody/tr/td[1]/text()'
port_xpath = '//*[@id="list"]/table/tbody/tr/td[2]/text()'
http_or_https_xpath ='//*[@id="list"]/table/tbody/tr/td[4]/text()' #匹配内容
ip_list = rp_html.xpath(ip_xpath)
port_list = rp_html.xpath(port_xpath)
http_or_https_list = rp_html.xpath(http_or_https_xpath) #进行组合
list_zip = zip(ip_list,port_list,http_or_https_list)
proxy_dict= {}
proxy_list = []
for ip,port,http_or_https in list_zip:
proxy_dict[http_or_https] = f'{ip}:{port}'
proxy_list.append(proxy_dict)
proxy_dict = {}
print(proxy_list)
#list就是啦,你们可以用random模块随机选一个进行后续的爬取 #一页不够嘛那我们就爬十写
#先看规则
'''
第一页:https://www.kuaidaili.com/free/inha/1/
第二页: https://www.kuaidaili.com/free/inha/2/
后面就不用说了吧
'''

http://www.kuaidaili.com/free/这个ip代理网站不错哈

最新文章

  1. Reactjs的Controller View模式
  2. Logistic回归分类算法原理分析与代码实现
  3. Package Control Installation
  4. 【Java EE 学习 21 下】【使用java实现邮件发送、邮件验证】
  5. Linux内核分析之操作系统是如何工作的
  6. [SAP ABAP开发技术总结]搜索帮助Search Help (F4)
  7. openstack rc
  8. Java 取整
  9. 用sp_change_users_login消除Sql Server的孤立用户
  10. Filter及FilterChain的使用具体解释
  11. Redis被攻击
  12. 【ios开发】自定义Actionsheet实现时间选择器和省市区选择器
  13. JDBC的批处理操作三种方式
  14. apache泛域名解析
  15. JDBC存储和读取二进制数据
  16. OAF隐藏显示题头
  17. android 可以精确到秒级的时间选择器
  18. 配置logback
  19. 技巧:Vim 的纵向编辑模式【转】
  20. 【亲测】<g++/gcc>CentOS下g++: command not found问题的解决(c++环境安装)

热门文章

  1. ES6对数组的扩展(简要总结)
  2. 解决苹果mac远程桌面无VDI客户端
  3. 浅析 Java 与 C++ 的垃圾回收机制
  4. 转载 全角字符unicode码对应表
  5. SpringCloud(三):服务消费以及负载均衡(RestTemplate+Ribbon)
  6. Android 项目优化(三):MultiDex 优化
  7. 如何向小姐姐解释SQL和NoSQL之间的区别
  8. IT兄弟连 HTML5教程 使用盒子模型的浮动布局
  9. 使用vue脚手架快速创建vue项目(入门)
  10. JavaScript Map 和 Set