首先需要确定要爬取的内容,所以第一步就应该是要确定要爬的字段:

  首先去items中确定要爬的内容

class MeizhuoItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 图集的标题
title = scrapy.Field()
# 图片的url,需要来进行图片的抓取
url = scrapy.Field()
pass

在确定完要爬的字段之后,就是分析网站页面的请求了,找到自己需要的内容,我这里爬的是http://www.win4000.com里面的壁纸照片

   首先我们在分析的时候,点到一个图集里面可以发现,真正的照片都在这里面,所以我们分成两步走

    1、找到所有图集的url

    2、根据指定的图集的url来将里面所有照片的URL找出来

      但是找出照片的url之后又面临一个问题,那就是那个url并不是我们真正想要的,它在最后还加了一层修饰,所以我们还要对这个url进一步的操作

# -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector
from fake_useragent import UserAgent
from meizhuo.items import MeizhuoItem headers = {
'user-agent': UserAgent(verify_ssl=False).chrome
} class MzSpider(scrapy.Spider):
name = 'mz'
allowed_domains = ['www.win4000.com']
start_urls = [
'http://www.win4000.com/wallpaper_2285_0_0_1.html',
'http://www.win4000.com/wallpaper_204_0_0_1.html'
] def parse(self, response):
sel = Selector(response)
list = sel.xpath('//*[@class="list_cont Left_list_cont"]/div/div/div/ul/li/a') for img in list:
# 这个是每个图集得到的url
url = img.xpath('@href').extract_first()
title = img.xpath('@title').extract_first()
# 对我的每一个URL进行解析
yield scrapy.Request(url, callback=self.get_all_img, meta={'title': title})
# 对于下一页进行定位,如果存在就进行跳转
next_url = sel.xpath('//*[@class="next"]/@href').extract_first()
if next_url is not None:
yield scrapy.Request(next_url, callback=self.parse) def get_all_img(self, response):
item = MeizhuoItem() container = []
sel = Selector(response)
# 这个是所有照片的所有的总共的页数
img_list = sel.xpath('//*[@class="scroll-img-cont"]/ul')
for img in img_list:
img_url = img.xpath('li/a/img/@data-original').extract()
for url in img_url:
# 这个url还是需要经过处理的,所以要循环出来挨个进行修改
cmp_url = url.split('_')[0] + '.jpg'
container.append(cmp_url)
item['url'] = container
item['title'] = response.meta['title']
# print(container) yield item
container.clear()

当我们将图集中的所有照片的url找出来之后要做的,就是将图片下载到本地中,所以我们就在pipelines中配置了相关的下载路径的配置,然后利用抓取到的图片的url和rqeuests的模块的配合使用,来获取到图片真正的二进制的数据,然后将这些二进制数据,写入到你配置的指定的文件夹中,

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
import os
import requests
from meizhuo.settings import IMAGES_STORE
from fake_useragent import UserAgent headers = {
'user-agent': UserAgent(verify_ssl=False).chrome
} class MeizhuoPipeline(object):
def process_item(self, item, spider):
dir_path = IMAGES_STORE
title = item['title']
img_list = item['url']
print(title, img_list)
"""
1、我要创建指定的路径
2、然后我要利用requests模块获取到那一个url的二进制数据保存进去
"""
if not os.path.exists(IMAGES_STORE):
os.mkdir(IMAGES_STORE) # 如果这个顶头文件夹存在的话
collection_url = os.path.join(IMAGES_STORE, title)
print('', collection_url)
if not os.path.exists(collection_url):
os.mkdir(collection_url)
for url_list in range(len(img_list)):
cmp_url = os.path.join(collection_url, img_list[url_list]) # print(cmp_url)
file_path = os.path.join(collection_url, title) + str(url_list) + '.jpg'
print(file_path)
with open(file_path, 'wb') as fp:
res = requests.get(img_list[url_list], headers=headers).content
# print(img_list[url_list])
fp.write(res)
print('insert successfully!!!')

最后就是要讲一下,在settings中的相关配置:

BOT_NAME = 'meizhuo'

SPIDER_MODULES = ['meizhuo.spiders']
NEWSPIDER_MODULE = 'meizhuo.spiders'
ROBOTSTXT_OBEY = True
ITEM_PIPELINES = {
'meizhuo.pipelines.MeizhuoPipeline': 300,
}
# 下载的顶头路径
IMAGES_STORE = '/Users/mac/Documents/girl'
# 下载延迟
DOWNLOAD_DELAY = 0.3

  

最新文章

  1. 使用 yum 安装 virtualbox 虚拟机
  2. Convert HTML to Text(转载)
  3. redis集群讨论
  4. static, readonly, const
  5. Excel中显示长数字的方法
  6. 论文笔记之:Fully-Convolutional Siamese Networks for Object Tracking
  7. makefile复习时发现的编写makefile规则注意事项
  8. MD5加密帮助类
  9. Xilium.CefGlue利用XHR实现Js调用c#方法
  10. log4j配置文件,用时导入jar包buildPath且将配置文件改成log4j.properties即可
  11. VMware虚拟机上建立HTTP服务步骤
  12. 【HDU1695】GCD(莫比乌斯反演)
  13. 最新App Store审核10大被拒理由
  14. Kali Linux Live USB初始化+使用日记
  15. jQuery各类选择器
  16. ie浏览器许多图片放在一起会有间隙
  17. Leetcode 344. 反转字符串
  18. Mac 永久添加 环境变量方法
  19. v4l2文档之——color and format【转】
  20. Confluence 6 教程:空间高手

热门文章

  1. Java虚拟机一看就懂01
  2. bi-Lstm +CRF 实现命名实体标注
  3. 《Java 8 in Action》Chapter 7:并行数据处理与性能
  4. Linux Capabilities 简介
  5. JVM(十三):后端编译优化
  6. Codeforces 976C
  7. 用户数从 0 到亿,我的 K8s 踩坑血泪史
  8. Java深层复制方式
  9. 【故障公告】阿里云 RDS 数据库服务器 CPU 100% 造成全站故障
  10. Android Studio安卓学习笔记(一)安卓与Android Studio运行第一个项目