[Python3网络爬虫开发实战] 3.1-使用urllib
2024-09-04 01:32:48
在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。
首先,了解一下urllib库,它是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。它包含如下4个模块。
request
:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。error
:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。parse
:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。robotparser
:主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬,它其实用得比较少。
这里重点讲解一下前3个模块。
最新文章
- Python3基础 给一起列表起两个名字
- CFD计算
- [转]输出带颜色的shell
- PHP使用PHPExcel删除Excel单元格指定列的方法是怎样
- U盘安装Linux CentOS 6.5 64位操作系统(来自互联网)
- Ubuntu 14.04 LTS 与Kylin
- 免费 Bootstrap 管理后台模块下载
- 你使用PetaPoco必须知道的事情
- istringstream和ostringstream的使用方法
- 微信 python 接口 -- itchat 文档
- [100个改变摄影的伟大观念].(英)玛瑞恩.高清扫描版.pdf
- 关于前端HTML你需要知道的一切
- com.mysql.jdbc.Driver 和 com.mysql.cj.jdbc.Driver的区别
- 机器学习基石10-Logistic Regression
- Java开发笔记(五十一)多态的发生场景
- EXCEL查找函数之VLOOKUP,LOOKUP,HLOOKUP
- EDK II之USB主控制器(EHCI)驱动的实现框架
- Swift语言精要 - Dictionary(字典)
- 新的Blog
- Matlab的集合运算[转]