爬虫——urllib.request包
2024-09-02 06:04:54
一、引用包
import urllib.request
二、常用方法
(1)urllib.request.urlretrieve(网址,本地文件存储地址):直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","D:\1.html")
(2)urllib.request.urlcleanup():清理缓存
(3)查看网页基本内容
file = urllib.request.urlopen("http://www.baidu.com")
print(file.info()) #查看网页信息
print(file.code())#查看网页状态码
print(file.geturl())#获取当前网页的url
(4)设置网页超时时间
urllib.request.urlopen("http"//www.baidu.com",timeout=1)
timeout就是网页的超时时间设定
三、POST请求
import urllib.request
import urllib.parse
post_url = "http://www.baidu.com"
post_data = urllib.parse.urlencode{
"username":"username"
"password":"password"
}.encode("utf-8") req = urllib.request.Request(post_url,post_data)
四、异常处理
import urllib.request
import urllib.error try:
urllib.request.urlopen("http://www.baidu.com")
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
最新文章
- eclipse导入重复的项目、eclipse设置默认注释
- UISegmentedControl 的使用
- 日常维护sql
- iOS中的两种主要架构及其优缺点浅析
- 为什么接口类型可以直接new?
- URAL 1152. False Mirrors(DP)
- jsp中表格,表格中的文字根据表格的大小自动换行
- 【AngularJS学习笔记】00 序
- [Java] Java 获取数据库所有表基本信息和表中的所有列基本信息代码
- [Bootstrap] 4. Typogrphy
- cocos2d-x编程的一些小技巧
- 04_过滤器Filter_05_Filter解决全站中文乱码问题(POST方式)
- 使用WebSocket构建实时WEB
- 在Eclipse发展Webapp部署过程,缓存的位置
- 定时帧:NSTimer和CADisplayLink
- jquery.validate.js 无法验证隐藏域
- python 常用镜像
- java字符串对象存储机制
- js或jsp 获取项目路径常用方法
- shell 或 Makefile 学习网站
热门文章
- 如何使用github搜索需要的开源项目
- Core3.1 微信v3 JSAPI支付
- Redis 实战 —— 04. Redis 数据结构常用命令简介
- FTP使用Socket SSL流程认证(一)
- 文件的上传/下载+在线游览(转化html)--不需要在线插件//自己写的小方法
- Profile Guided Optimization Link Time Optimization
- Covering Indexes in MySQL, PostgreSQL, and MongoDB
- luoguP6754 [BalticOI 2013 Day1] Palindrome-Free Numbers
- Java Web工作原理
- fedora 20安装vim Transaction check error