日志设置

CRITICAL : 严重错误
ERROR : 一般错误
WARNING : 警告
INFO : 一般的信息
DEBUG : 调试信息
默认的显示级别是DEBUG

# 设置错误显示级别
LOG_LEVEL = 'DEBUG'
# 将日志信息写到文件中,不要显示到屏幕中
LOG_FILE = 'log.txt'

数据存储

在pipelines.py文件中创建3个函数

def open_spider(self,spider)    爬虫启动时会调用此方法
def close_spider(self,spider)   爬虫结束时会调用此方法
def download(self,item)         自己构建的下载文件的方法
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html # useful for handling different item types with a single interface
from itemadapter import ItemAdapter import json
import os
import urllib.request class MyfirstScrapydemoPipeline: #爬虫启动时会调用此方法
def open_spider(self,spider):
print('爬虫启动')
self.fp= open('qiushibaike.txt','w',encoding='utf8') def process_item(self, item, spider):
#下载头像图片
self.download(item)
#将数据转化为字典
obj= dict(item)
#将字典数据装换为json格式
string= json.dumps(obj,ensure_ascii=False)
#将数据写入文件
self.fp.write(string+'\n')
#不注释return item时只会下载第一页的头像
#return item def download(self,item):
#定义头像图片存放路径
dirpath= r'F:\python_project\爬虫\myfirst_scrapyDemo\myfirst_scrapyDemo\spiders\头像'
#获取每一张图片的名称
name= item['name']+'.jpg'
#拼接每一张头像图片的存储路径
filepath=os.path.join(dirpath,name)
#下载头像图片
urllib.request.urlretrieve(item['face_src'],filepath) # 爬虫结束时会调用此方法
def close_spider(self,spider):
print('爬虫结束')
self.fp.close()

 
 
 

最新文章

  1. Redis在windows下安装过程
  2. Java 分页通用
  3. 【转载】PHP 开发者该知道的 5 个 Composer 小技巧
  4. Android 自定义Popupwindow 注意事项,手机和平板的区别
  5. XE6移动开发环境搭建之IOS篇(5):解决Windows和虚拟机下Mac OSX的共享问题(有图有真相)
  6. 检测端口状态的python脚本
  7. [css] haslayout
  8. qt 获取系统磁盘空间大小
  9. 关于<ul><ol><li>的用法
  10. ubuntu 下使用mysql
  11. tomcat7 启动报错(转)
  12. MySql表操作常用语法
  13. java IO之 序列流 集合对象Properties 打印流 流对象
  14. STL --> vector向量
  15. Django 视图层
  16. vue2 商城首页轮播图切换
  17. 同一台机器安装多个zabbix-agentd
  18. PHP PC端微信扫码支付【模式二】详细教程-附带源码(转)
  19. final与abstract关键字
  20. eclipse/STS 切换目录视图

热门文章

  1. 题解 P4317 花神的数论题
  2. 跳板攻击之:SSH 隧道
  3. ArcGIS for Android 开发环境搭建
  4. day08-MyBatis的关联映射02
  5. 微软出品自动化神器【Playwright+Java】系列(十)元素定位详解
  6. 将python2.7项目转为Python3问题记录
  7. oracle 设置用户永不过期
  8. gridfs + nginx + mongodb 实现图片服务器
  9. Android获取获取悬浮窗一下的view办法
  10. 华为MA5626和S2700重置密码