简单的抓取网页

import urllib.request
url="http://google.cn/"
response=urllib.request.urlopen(url) #返回文件对象
page=response.read()

直接将URL保存为本地文件

import urllib.request
url="http://www.xxxx.com/1.jpg"
urllib.request.urlretrieve(url,r"d:\temp\1.jpg")

POST方式

import urllib.parse
import urllib.request url="http://liuxin-blog.appspot.com/messageboard/add" values={"content":"命令行发出网页请求测试"}
data=urllib.parse.urlencode(values) #创建请求对象
req=urllib.request.Request(url,data)
#获得服务器返回的数据
response=urllib.request.urlopen(req)
#处理数据
page=response.read()

GET方式

import urllib.parse
import urllib.request url="http://www.google.cn/webhp" values={"rls":"ig"}
data=urllib.parse.urlencode(values) theurl=url+"?"+data
#创建请求对象
req=urllib.request.Request(theurl)
#获得服务器返回的数据
response=urllib.request.urlopen(req)
#处理数据
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码

最新文章

  1. SQL操作符
  2. Django (2)
  3. OC-02 如何设计类
  4. yield
  5. IOS第13天(2,私人通讯录,plist存储,偏好设置,归档)
  6. springmvc web-info目录下无法引入的js文件无效
  7. ExtJs之进度条实现
  8. Xcode和github入门详细教程
  9. C++:在程序中获取全球唯一标识号(GUID或UUID)
  10. Android开发中如何强制横屏和强制竖屏设置
  11. 3.1日 重温JVM相关信息
  12. [ofbiz]设置任务计划(job),提示service_item已经传递
  13. 用bat启动sqlserver服务
  14. 转化来的图标用法symbol引用‘font-class引用及Unicode引用
  15. and,or
  16. 第一册:lesson109.
  17. 【POJ3061】Subsequence
  18. 杂货&&心跳
  19. hdu 5683 zxa and xor 暴力
  20. mysql item类

热门文章

  1. Retrofit实现Delete请求
  2. Java基础50题test1—不死神兔
  3. LN : Eden Polymorphic And OOP Design Pattern Abstract Factory
  4. Java编程基础-选择和循环语句
  5. Java程序流程控制之if-else if-else
  6. CommonJS与ES6、AMD、CMD比较
  7. arcgis jsapi接口入门系列(10):图形高亮
  8. Android 实现类似于QQ空间相册的点击图片放大,再点后缩小回原来位置
  9. HTTP 三次握手  建立连接 和  四次握手断开连接
  10. (八)VMware harbor 成员管理