HTTP 代理
2024-08-28 01:31:33
HTTP 代理:
(1) 如果我们一直用同一个IP去爬取同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来爬取,代理实际上指的就是代理服务器
(2) 当我们使用代理IP爬取时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https://www.xicidaili.com/
根据协议区分代理:
(1) FTP 代理:主要用于访问 FTP 服务器, 一般有上传、下载以及缓存功能
(2) HTTP 代理:主要用于访问网页,一般有内容过滤和缓存功能
(3) SSL/TLS 代理:主要用于访问加密网站, 一般有 SSL 或TLS 加密功能(最高支持128 位加密强度)
(4) Telnet 代理:主要用于 telnet 远程控制(黑客人侵计算机时常用于隐藏身份)
(5) SOCKS 代理: 只是单纯传递数据包,不关心具体协议和用法,所以速度快很多, 一般有缓存功能
根据匿名程度区分代理:
(1) 高度匿名代理:会将数据包原封不动地转发,在服务端看来就好像真的是一个普通客户端在访问,而记录的 IP 是代理服务器的 IP
(2) 普通匿名代理:会在数据包上做一些改动, 服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP
(3) 透明代理:不但改动了数据包,还会告诉服务器客户端的真实IP,这种代理除了能用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用
(4) 间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等目的的代理服务器
最新文章
- 交易系统使用storm,在消息高可靠情况下,如何避免消息重复
- JS 的实例和对象的区别
- 【Alpha阶段】第三次Scrum例会
- linux之php
- 【crunch bang】程序中文化
- mysql 查询执行的流程
- You have new mail in /var/spool/mail/root 烦不烦你?
- 区块链Fabric技术在托管业务中的运用初探
- linux周期性计划任务 进程管理
- 初识html与css
- JAVA的第二次作业
- 2018软工实践K班总结
- Vue用axios跨域访问数据
- UI5-学习篇-9-本地Eclipse UI5应用发布到SAP前端服务器
- [SQLite3]connection string的连接池参数引发的错误
- eayui js动态加载Datagrid,自适应宽度,高度
- installshield 判断mdmcpq.inf和usbser.sys 是否 存在
- SAS9.4安装
- hdu 1142 A Walk Through the Forest (最短路径)
- 608. Two Sum - Input array is sorted【medium】