特此声明:

  • 以下内容来源于博主:http://blog.csdn.net/pleasecallmewhy

                                    http://cuiqingcai.com/

  • 根据需要整理到自己的笔记中,用于学习。

网络爬虫(Web crawler):也叫网络蜘蛛(Web spider),网络爬虫的基本操作就是抓取网页。

浏览网页:在火狐浏览器中打开百度www.baidu.com ,就是将浏览器作为一个’客户端‘,

向服务器发送一次请求, 把服务器的文件’抓取‘到本地,再进行解释和展现.

HTML:是一种标记语言,用标签标记内容并加以解析和区分。

浏览器功能:将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

URL(Uniform / Universal Resource Locator):称为统一资源定位符(也叫网址)

URL格式:

  • 协议
  • 服务器(域名或IP地址),有时也包括端口号(以数字表示,可省略)
  • 路径(即主机资源的具体地址)
  • 查询(以?为起点)

第一部分协议和第二部分服务器用' :// '符合隔开,第二部分服务器和第三部分路径用' / '隔开

例如:http://zh.wikipedia.org:80/w/index.php

http:是协议

zh.wikipedia.org,是服务器

80,是服务器上的网络端口号

/w/index.php,是路径

爬虫最主要的处理对象就是URL

最新文章

  1. BZOJ 3157 &数学乱搞...
  2. zk FileUpload(文件上传)
  3. JQuery_过滤选择器
  4. 5.HBase In Action 第一章-HBase简介(1.1.3 HBase的兴起)
  5. javascript 拷贝文本
  6. V4L2应用程序框架--一【转】
  7. Duilib学习笔记《02》— 界面布局
  8. 我常用的VBS方法(QTP)
  9. jsf小例子
  10. 转载:selenium的wait.until()
  11. C++实现多级排序
  12. 如何批量修改网页 更新网站 一键保存 windows查看和排序
  13. day-01(html)
  14. ionic 3 安卓手机获取经纬度坐标
  15. 【PHP】五分钟教你编写一个实时弹幕网站
  16. linux RCU锁机制分析
  17. Redis-发布与订阅
  18. ExtJs 中Viewport的介绍与使用
  19. js改变iframe 的src地址
  20. 4.1.1 Choosing the SST Donor

热门文章

  1. 【BZOJ1976】[BeiJing2010组队]能量魔方 Cube 最小割
  2. coursera 《现代操作系统》 -- 第五周 同步机制(2)
  3. KVC && KVO 初见
  4. Linux中对启动过程中选择启动级别那个界面设置密码
  5. Oracle学习笔记—归档模式
  6. 爬虫,如何防止被ban之策略大集合
  7. corethink功能模块探索开发(六)让这个模块在前台显示
  8. python2.7升级到python3.6注意事项
  9. 顽石系列:CSS实现垂直居中的五种方法
  10. 常见Web源码泄露总结