python爬虫之路——初识爬虫原理

爬虫主要做两件事

①模拟计算机对服务器发起Request请求

②接收服务器端的Response内容并解析，提取所需的信息

互联网页面错综复杂，一次请求不能获取全部信息。就需要设计爬虫的流程。

本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程

多页面爬虫流程：

（1）手动翻页并观察各页面的URL构成特点，构造出所有页面的URL存入列表

（2）根据URL列表依次循环取出URL

（3）定义爬虫函数

（4）循环调用爬虫函数，存储数据。

（5）循环结束，结束爬虫程序。

跨页面的爬虫程序：

（1）定义爬取函数爬取页面中（列表页）的专题URL

（2）将专题URL存入列表中作为种子URL

（3）定义爬虫函数

（4）根据种子URL循环调用爬虫函数，存储数据。

（5）循环结束，结束爬虫程序。

两种流程区别：自己构造URL列表，爬取页面URL列表

巴特西