HTTP 代理:

(1) 如果我们一直用同一个IP去爬取同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来爬取,代理实际上指的就是代理服务器
(2) 当我们使用代理IP爬取时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https://www.xicidaili.com/

根据协议区分代理:

(1) FTP 代理:主要用于访问 FTP 服务器, 一般有上传、下载以及缓存功能
(2) HTTP 代理:主要用于访问网页,一般有内容过滤和缓存功能
(3) SSL/TLS 代理:主要用于访问加密网站, 一般有 SSL 或TLS 加密功能(最高支持128 位加密强度)
(4) Telnet 代理:主要用于 telnet 远程控制(黑客人侵计算机时常用于隐藏身份)
(5) SOCKS 代理: 只是单纯传递数据包,不关心具体协议和用法,所以速度快很多, 一般有缓存功能

根据匿名程度区分代理:

(1) 高度匿名代理:会将数据包原封不动地转发,在服务端看来就好像真的是一个普通客户端在访问,而记录的 IP 是代理服务器的 IP 
(2) 普通匿名代理:会在数据包上做一些改动, 服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP
(3) 透明代理:不但改动了数据包,还会告诉服务器客户端的真实IP,这种代理除了能用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用
(4) 间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等目的的代理服务器

最新文章

  1. 交易系统使用storm,在消息高可靠情况下,如何避免消息重复
  2. JS 的实例和对象的区别
  3. 【Alpha阶段】第三次Scrum例会
  4. linux之php
  5. 【crunch bang】程序中文化
  6. mysql 查询执行的流程
  7. You have new mail in /var/spool/mail/root 烦不烦你?
  8. 区块链Fabric技术在托管业务中的运用初探
  9. linux周期性计划任务 进程管理
  10. 初识html与css
  11. JAVA的第二次作业
  12. 2018软工实践K班总结
  13. Vue用axios跨域访问数据
  14. UI5-学习篇-9-本地Eclipse UI5应用发布到SAP前端服务器
  15. [SQLite3]connection string的连接池参数引发的错误
  16. eayui js动态加载Datagrid,自适应宽度,高度
  17. installshield 判断mdmcpq.inf和usbser.sys 是否 存在
  18. SAS9.4安装
  19. hdu 1142 A Walk Through the Forest (最短路径)
  20. 608. Two Sum - Input array is sorted【medium】

热门文章

  1. 一款基于TweenMax.js的网页幻灯片
  2. tomcat7和jetty启动的pom.xml配置
  3. zTree V3 是个好东西 功能很强大
  4. 【C#】Queue的简单试用
  5. [转]getHibernateTemplate出现的所有find方法的总结
  6. ggplot2学习
  7. 《FPGA全程进阶---实战演练》第二章之硬件平台的搭建
  8. selenium测试(Java)--元素操作(五)
  9. github 远程仓库操作
  10. k-means算法及matlab实现