Python网络爬虫(Get、Post抓取方式)
2024-09-08 07:50:02
简单的抓取网页
import urllib.request
url="http://google.cn/"
response=urllib.request.urlopen(url) #返回文件对象
page=response.read()
直接将URL保存为本地文件
import urllib.request
url="http://www.xxxx.com/1.jpg"
urllib.request.urlretrieve(url,r"d:\temp\1.jpg")
POST方式
import urllib.parse
import urllib.request
url="http://liuxin-blog.appspot.com/messageboard/add"
values={"content":"命令行发出网页请求测试"}
data=urllib.parse.urlencode(values)
#创建请求对象
req=urllib.request.Request(url,data)
#获得服务器返回的数据
response=urllib.request.urlopen(req)
#处理数据
page=response.read()
GET方式
import urllib.parse
import urllib.request
url="http://www.google.cn/webhp"
values={"rls":"ig"}
data=urllib.parse.urlencode(values)
theurl=url+"?"+data
#创建请求对象
req=urllib.request.Request(theurl)
#获得服务器返回的数据
response=urllib.request.urlopen(req)
#处理数据
page=response.read()
有2个常用的方法,geturl(),info()
geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。
中文问题的处理,会用到 encode()编码 dencode()解码
最新文章
- SQL操作符
- Django (2)
- OC-02 如何设计类
- yield
- IOS第13天(2,私人通讯录,plist存储,偏好设置,归档)
- springmvc web-info目录下无法引入的js文件无效
- ExtJs之进度条实现
- Xcode和github入门详细教程
- C++:在程序中获取全球唯一标识号(GUID或UUID)
- Android开发中如何强制横屏和强制竖屏设置
- 3.1日 重温JVM相关信息
- [ofbiz]设置任务计划(job),提示service_item已经传递
- 用bat启动sqlserver服务
- 转化来的图标用法symbol引用‘font-class引用及Unicode引用
- and,or
- 第一册:lesson109.
- 【POJ3061】Subsequence
- 杂货&;&;心跳
- hdu 5683 zxa and xor 暴力
- mysql item类
热门文章
- Retrofit实现Delete请求
- Java基础50题test1—不死神兔
- LN : Eden Polymorphic And OOP Design Pattern Abstract Factory
- Java编程基础-选择和循环语句
- Java程序流程控制之if-else if-else
- CommonJS与ES6、AMD、CMD比较
- arcgis jsapi接口入门系列(10):图形高亮
- Android 实现类似于QQ空间相册的点击图片放大,再点后缩小回原来位置
- HTTP 三次握手  建立连接 和  四次握手断开连接
- (八)VMware harbor 成员管理