Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、URI、URL、URN、HTTP

URI:统一资源标志符

URL:是URI的一个子集

URN:是URI的另一个子集,统一资源名称

HTTP协议:
  超文本传输协议,是一个基于“请求与响应”模式的、无状态的引用层协议。
  HTTP协议采用URL作为定位网络资源的标识。
  URL格式 http://host[:port][path]

二、请求

1.请求方法

2.请求的网址

3.请求头

4.请求体

三、响应:

1.响应状态码

2.响应头

3.响应体

四、GET和POST的区别:

1.GET相对于POST较不安全,GET将参数包含在URL里面,POST是通过表单形式传输的,包含在请求体中。

2.GET最多提交的数据大小为1024字节,POST没有限制

3.GET效率较高与POST

五、DOM

1.含义:文档对象模型,定义了访问HTML和XML文档标准

2.DOM:

  1.核心DOM:针对任何结构化文档的标准模型

  2.XML DOM:针对XML文档的标准模型

  3.HTML DOM:针对HTML文档的标准模型

    a.整个文档是一个文档节点

    b.每个HTML元素是元素节点

    c.HTML元素内的文本是文本节点

    d.每个HTML属性是属性节点

    e.注释是注释节点

【注】

节点树中的节点,批次拥有层级关系,常用的有父节点(parent)、子节点(child)、兄弟节点(sibling)

六、爬虫爬取的步骤:

1.获取网页

2.提取信息

3.保存数据

4.自动化爬取程序

七、代理的作用:

1.突破自身IP访问限制,访问一些平时不能访问的站点

2.访问一些单位或团体的内部资源

3.提高访问速度

4.隐藏真实IP

八、代理的分类

1.根据协议分类:

  协议  一般开放端口

  FTP  21、2121

  HTTP     80、8080、3128

  SSL/TLS 443

  RTSP   554

  Telnet   23

  POP3/SMTP  110/25

  SOCKS  1080

2.根据匿名程度分类:

  a.高度匿名代理

  b.普通匿名代理

  c.透明代理

  d.间谍代理

最新文章

  1. 【LeetCode】Binary Tree Preorder Traversal
  2. Javascript基础系列之(一)JavaScript语法
  3. 关于get和set访问器以及属性和字段变量的区别问题
  4. Win8.1系统下配置搭建IIS8.5+PHP5.5.4运行环境
  5. Myeclipse和windows调节成护眼色
  6. 201521123101 《Java程序设计》第7周学习总结
  7. freemarker入门实例
  8. 配置VIP地址
  9. lpad函数
  10. Tomcat系列(3)——Tomcat 组件及架构核心部分 4类主要组件(顶层,连接器,容器,嵌套)
  11. cobble服务器安装配置
  12. HDU1255(KB7-O)
  13. java工程师-面试知识点总结
  14. 【Leetcode】535. Encode and Decode TinyURL
  15. redis性能提升
  16. JS常见算法题目
  17. 用Visual studio2012在Windows8上开发内核驱动监视线程创建
  18. Ceph性能优化
  19. windows-x64下安装python3.6
  20. TP数据删除

热门文章

  1. django模板templates详解(二)
  2. Centos7设置文件夹写入权限
  3. Angular项目新建
  4. spring boot拦截器配置
  5. 源码安装mysql5.6.37
  6. POJ 1191 棋盘分割 【DFS记忆化搜索经典】
  7. 2018.10.16 Java的IO与NIO
  8. 论文翻译:XNOR-Net: ImageNet Classification Using BinaryConvolutional Neural Networks
  9. 【其它】Nook HD刷机
  10. Python—面向对象05 反射