爬虫主要做两件事

①模拟计算机对服务器发起Request请求

②接收服务器端的Response内容并解析,提取所需的信息

互联网页面错综复杂,一次请求不能获取全部信息。就需要设计爬虫的流程。

本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程

多页面爬虫流程:

(1)手动翻页并观察各页面的URL构成特点,构造出所有页面的URL存入列表

(2)根据URL列表依次循环取出URL

(3)定义爬虫函数

(4)循环调用爬虫函数,存储数据。

(5)循环结束,结束爬虫程序。

跨页面的爬虫程序:

(1)定义爬取函数爬取页面中(列表页)的专题URL

(2)将专题URL存入列表中作为种子URL

(3)定义爬虫函数

(4)根据种子URL循环调用爬虫函数,存储数据。

(5)循环结束,结束爬虫程序。

两种流程区别:自己构造URL列表,爬取页面URL列表

最新文章

  1. scikit-learn Adaboost类库使用小结
  2. iOS开发-删除字典中的null
  3. JavaScript事件详解-zepto的事件实现
  4. 如何使用NSOperations和NSOperationQueues(二)
  5. SQL一列多行字符串分组合并
  6. ubuntu glusterfs 配置调试
  7. 解决OpenWrt多拨刚开机拨号只拨上一次问题
  8. ubuntu14.04 qt4开发环境搭建(vnc use gnome)
  9. javaScript事件(六)事件类型之滚轮事件
  10. 12.ThreadPoolExecutor线程池原理及其execute方法
  11. Tornado 协程
  12. Android进阶(二)https请求No peer certificate的解决方法.
  13. WPF自定义轮播控件
  14. 基于emWin的WAV,MP3软解软件播放器,带类似千千静听频谱,含uCOS-III和FreeRTOS两个版本
  15. Linux下如何查看版本
  16. ThreadPoolExecutor解析
  17. Git储藏与恢复
  18. 牛客练习赛40 C 小A与欧拉路(树的直径)
  19. Java Web 之javabeans
  20. 常用的oh-my-zsh插件

热门文章

  1. 下拉选择select和复选框checkbox的状态的各种方式
  2. SAP ECC6 IDES安装及虚拟机下载
  3. Trigonometric Function - Base
  4. Linux之vim常用扩展操作
  5. Keras实现MNIST分类
  6. spring boot 启动报:Composite-id class must implement Serializable: xxx错误
  7. solidity 学习笔记(3) 函数修饰符/继承
  8. python translate maketrans 字符串替换
  9. 洛谷P2029 跳舞
  10. uoj#290. 【ZJOI2017】仙人掌(数数+仙人掌+树形dp)