33行代码爬取妹子图片（bs4+urllib）

from bs4 import BeautifulSoup
import urllib2
import urllib
import lxml
import os

def get_imgs():
    image_couter = 1
    for i in range(1,20):
        url='http://www.tu11.com/xingganmeinvxiezhen/list_1_'+str(i)+".html"
        req=urllib2.Request(url)
        res=urllib2.urlopen(req)

        html_soup = BeautifulSoup(res, 'lxml')
        all_img_links=html_soup.find_all("img")
        print(all_img_links)
        #指定文件路径
        path = os.getcwd()
        new_path = os.path.join(path,"pictures")
        if not os.path.isdir(new_path):
            os.mkdir(new_path)
        new_path += "/"
        #下载图片

        for img_link in  all_img_links:
            file_name='%s.jpg'%image_couter
            img_url= img_link["src"]
            urllib.urlretrieve(img_url,new_path+file_name)
            image_couter +=1

#思路：用lxml解析域名，用urllib2的urlopen函数和find_all()获取图片的地址
urllib.urlretrieve()函数的传入url和文件名称加文件位置
用os定义设置一个文件再通过urlretrieve()导入

利用for循环实现翻页

成果展示：

巴特西

33行代码爬取妹子图片（bs4+urllib）

最新文章

热门文章