python爬虫之路——初识爬虫原理
2024-08-29 21:10:05
爬虫主要做两件事
①模拟计算机对服务器发起Request请求
②接收服务器端的Response内容并解析,提取所需的信息
互联网页面错综复杂,一次请求不能获取全部信息。就需要设计爬虫的流程。
本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程
多页面爬虫流程:
(1)手动翻页并观察各页面的URL构成特点,构造出所有页面的URL存入列表
(2)根据URL列表依次循环取出URL
(3)定义爬虫函数
(4)循环调用爬虫函数,存储数据。
(5)循环结束,结束爬虫程序。
跨页面的爬虫程序:
(1)定义爬取函数爬取页面中(列表页)的专题URL
(2)将专题URL存入列表中作为种子URL
(3)定义爬虫函数
(4)根据种子URL循环调用爬虫函数,存储数据。
(5)循环结束,结束爬虫程序。
两种流程区别:自己构造URL列表,爬取页面URL列表
最新文章
- scikit-learn Adaboost类库使用小结
- iOS开发-删除字典中的null
- JavaScript事件详解-zepto的事件实现
- 如何使用NSOperations和NSOperationQueues(二)
- SQL一列多行字符串分组合并
- ubuntu glusterfs 配置调试
- 解决OpenWrt多拨刚开机拨号只拨上一次问题
- ubuntu14.04 qt4开发环境搭建(vnc use gnome)
- javaScript事件(六)事件类型之滚轮事件
- 12.ThreadPoolExecutor线程池原理及其execute方法
- Tornado 协程
- Android进阶(二)https请求No peer certificate的解决方法.
- WPF自定义轮播控件
- 基于emWin的WAV,MP3软解软件播放器,带类似千千静听频谱,含uCOS-III和FreeRTOS两个版本
- Linux下如何查看版本
- ThreadPoolExecutor解析
- Git储藏与恢复
- 牛客练习赛40 C 小A与欧拉路(树的直径)
- Java Web 之javabeans
- 常用的oh-my-zsh插件
热门文章
- 下拉选择select和复选框checkbox的状态的各种方式
- SAP ECC6 IDES安装及虚拟机下载
- Trigonometric Function - Base
- Linux之vim常用扩展操作
- Keras实现MNIST分类
- spring boot 启动报:Composite-id class must implement Serializable: xxx错误
- solidity 学习笔记(3) 函数修饰符/继承
- python translate maketrans 字符串替换
- 洛谷P2029 跳舞
- uoj#290. 【ZJOI2017】仙人掌(数数+仙人掌+树形dp)