urllib##

python3 与 python2 的urllib很不一样,之前urllib2的方法基本上都变成了python3里的urllib.request模块中

import urllib.request as urq
import urllib.parse as urp
import urllib.error as ure # 初始化
opener = urq.build_opener()
# 序列化请求参数 urllib.parse.urlencode()
url = "http://localhost"
data = {"username":"dapianzi"}
post_data = urp.urlencode(data).encode('utf-8')
# 设置 header
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
# 构造request对象
request = urq.Request(url, post_data, headers)
# 打开url
try:
res = opener.open(request)
# 从结果对象中获取内容 read(), 返回二进制流
b_str = res.read()
# 解码还原, 编码视网页源代码而定
print(b_str.decode("utf8"))
except ure.HTTPError as e:
print (e.strerror)

unzip

通常网页会用gzip压缩,这时候需要先解压。导入gzip 模块, gzip.decompress(str)

def unzip(data):
try:
data = gzip.decompress(data)
except:
pass
return data

re 正则表达式

re.M 多行模式

re.I 忽略大小写

re.S \s 匹配换行

re.search 搜索

re.match 从开头匹配

re.fandall 匹配所有结果

Beautiful soup

Beautifulsoup 是一个强大的html文档解析模块。使用起来跟css选择器非常像。python3 直接pip install bs4安装,获取网页内容之后:

import bs4

html = "<html>The content you have got</html>"
# 初始化 beautiful soup对象
soup = bs4.BeautifulSoup(html, "html.parser")
# 直接.<标签>可以获取第一个匹配的元素
a = soup.a
print(a.string) # a标签的文本
imgs = soup.select('img') # all imgs
for i in imgs:
src = i['src'] # src属性
id = i['id'] # id属性(假如有的话)
print (src) # 后续操作继续抓取图片内容保存本地..

cookie

设置和保存cookie 需要用到 http.cookiejar 模块。 然后通过 urllib.request.HTTPCookieProcessor 处理器初始化cookie

import http.cookiejar as ckj
import urllib.request as urq cookie_tmp = "/tmp/cookie.tmp"
cookie = ckj.MozillaCookieJar(cookie_tep)
cookie_handler = urq.HTTPCookieProcessor(cookie)
opener = urq.build_opener(cookie_handler)
res = opener.open(url).read().decode()
# ignore_dicsard 是否覆盖旧的值
# ignore_expires 是否忽略过期cookie
cookie.save(cookie_tmp, ignore_discord=True, ignore_expires=True)
print(res)
print(cookie)

proxy代理

代理ip无论是自由上网还是应对封ip反爬虫策略都非常重要。首先要找一个可以用的代理。我后来想到自己完全可以搭一个http代理服务器,然后就被坑了一下午,这是后话暂且不表。

增加proxy非常简单,就是build_opener的时候多传一个 proxy handler

proxy = {"http" : "x.x.x.x:80"}
proxy_handler = urllib.request.ProxyHandler(proxy)
# 这里如果有多个handle, 一起传进去就行了
opener = urllib.request.build_opener(proxy_handelr, cookie_handler)
# ...

小结

以上掌握了之后就可以开始各种爬虫实践了,至于http认证,在 header 那里带上用户名密码就可以,不再赘述。

最新文章

  1. C#文件安全管理解析
  2. ios NSLog常见使用
  3. 用angularJS实现Bootstrap的“手风琴”
  4. JFrame 不规则窗体
  5. 从零单排学JavaWeb
  6. Linux vsftp
  7. 3 windows环境与shell交互操作
  8. CTreeCtrl结点拖动实现(与后台联动)
  9. 【01背包】HDU 2602 Bone Collector (模板题)
  10. cocos2d-3.x 创建动画
  11. yii2.0框架debug模式
  12. mysql中的concat函数,concat_ws函数,concat_group函数之间的区别
  13. 微信小程序-开心大转盘(圆盘指针)代码分析
  14. for循环 Dictionary
  15. YLZ开发外网前端
  16. set_uid set_gid stick_bit 软硬链接
  17. tile38 一款开源的geo 数据库
  18. php的语法
  19. awk之match函数
  20. Monkey源代码分析番外篇之Android注入事件的三种方法比較

热门文章

  1. java--xml文件读取(JDOM&amp;DOM4J)
  2. C++ 播放音频流(PCM裸流)
  3. ACM学习历程—UESTC 1222 Sudoku(矩阵)(2015CCPC H)
  4. 使用MDI窗体实现多窗口效果
  5. Maven(3)-利用intellij idea创建maven web项目
  6. 找工作-——网络IO
  7. select元素选择时间以及jQuery对select的属性操作
  8. HDOJ1114(完全背包)
  9. Linux(C/C++)下的文件操作open、fopen与freopen via Boblim
  10. SQL介绍(1)