Python 爬虫笔记

urllib##

python3 与 python2 的urllib很不一样，之前urllib2的方法基本上都变成了python3里的urllib.request模块中

import urllib.request as urq

import urllib.parse as urp

import urllib.error as ure

# 初始化

opener = urq.build_opener()

# 序列化请求参数 urllib.parse.urlencode()

url = "http://localhost"

data = {"username":"dapianzi"}

post_data = urp.urlencode(data).encode('utf-8')

# 设置 header

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}

# 构造request对象

request = urq.Request(url, post_data, headers)

# 打开url

try:

    res = opener.open(request)

    # 从结果对象中获取内容  read()， 返回二进制流

    b_str = res.read()

    # 解码还原, 编码视网页源代码而定

    print(b_str.decode("utf8"))

except ure.HTTPError as e:

    print (e.strerror)

unzip

通常网页会用gzip压缩，这时候需要先解压。导入gzip 模块， gzip.decompress(str)

def unzip(data):

    try:

        data = gzip.decompress(data)

    except:

        pass

    return data

re 正则表达式

re.M 多行模式

re.I 忽略大小写

re.S \s 匹配换行

re.search 搜索

re.match 从开头匹配

re.fandall 匹配所有结果

Beautiful soup

Beautifulsoup 是一个强大的html文档解析模块。使用起来跟css选择器非常像。python3 直接pip install bs4安装，获取网页内容之后：

import bs4

html = "<html>The content you have got</html>"

# 初始化 beautiful soup对象

soup = bs4.BeautifulSoup(html, "html.parser")

# 直接.<标签>可以获取第一个匹配的元素

a = soup.a

print(a.string) # a标签的文本

imgs = soup.select('img') # all imgs

for i in imgs:

    src = i['src']    # src属性

    id = i['id']    # id属性（假如有的话）

    print (src) # 后续操作继续抓取图片内容保存本地..

cookie

设置和保存cookie 需要用到 http.cookiejar 模块。然后通过 urllib.request.HTTPCookieProcessor 处理器初始化cookie

import http.cookiejar as ckj

import urllib.request as urq

cookie_tmp = "/tmp/cookie.tmp"

cookie = ckj.MozillaCookieJar(cookie_tep)

cookie_handler = urq.HTTPCookieProcessor(cookie)

opener = urq.build_opener(cookie_handler)

res = opener.open(url).read().decode()

# ignore_dicsard 是否覆盖旧的值

# ignore_expires 是否忽略过期cookie

cookie.save(cookie_tmp, ignore_discord=True, ignore_expires=True)

print(res)

print(cookie)

proxy代理

代理ip无论是自由上网还是应对封ip反爬虫策略都非常重要。首先要找一个可以用的代理。我后来想到自己完全可以搭一个http代理服务器，然后就被坑了一下午，这是后话暂且不表。

增加proxy非常简单，就是build_opener的时候多传一个 proxy handler

proxy = {"http" : "x.x.x.x:80"}

proxy_handler = urllib.request.ProxyHandler(proxy)

# 这里如果有多个handle, 一起传进去就行了

opener = urllib.request.build_opener(proxy_handelr, cookie_handler)

# ...

小结

以上掌握了之后就可以开始各种爬虫实践了，至于http认证，在 header 那里带上用户名密码就可以，不再赘述。

巴特西