笔记-scrapy-setting

1.     简介

Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和蜘蛛本身.

可以使用不同的机制来填充设置,每种机制都有不同的优先级。以下按优先级降序排列:

命令行选项(最优先)

每个蜘蛛的设置

项目设置模块settings.py

每个命令的默认设置

默认的全局设置(优先级较低)

2.     使用

2.1.    在spider中查看和修改设置

可以手动修改设置文件,但有内置属性可以访问设置:self.settings:

class MySpider(scrapy.Spider):

name = 'myspider'

start_urls = ['http://example.com']

custom_settings = { 'SOME_SETTING': 'some value',}

def parse(self, response):

print("Existing settings: %s" % self.settings.attributes.keys())

2.2.    一些参数

BOT_NAME:项目名称

CONCURRENT_ITEMS 项目管道中并行处理的最大并行数 默认: 100

CONCURRENT_REQUESTS 下载器并发数,默认16

CONCURRENT_REQUESTS_PER_DOMAIN 将对任何单个域执行的并发(即同时)请求的最大数量默认: 8

DEFAULT_REQUEST_HEADERS  默认请求头部

DEPTH_LIMIT 最大抓取深度,默认0,代表不使用该参数

DEPTH_PRIORITY 根据深度调整优先级:

0默认,不会调整;

正值,降低优先级,后处理

负值,提高优先级,先处理

DNSCACHE_ENABLED 启用 DNS内存缓存,默认True启用

DOWNLOADER 下载器Default: 'scrapy.core.downloader.Downloader'

DOWNLOADER_MIDDLEWARES 是否使用下载中间件,默认不使用

DOWNLOAD_DELAY 下载器在下载连续页面(同一网站)时的间隔,默认0(不太在什么地方识别是否为同一网站连续页面)

DOWNLOAD_TIMEOUT 下载超时等待时间

DOWNLOAD_MAXSIZE 下载器下载最大响应大小(字节),反反爬用,某此网站。。。

此功能需要twisted>=11.1

DOWNLOAD_WARNSIZE 下载器发出警告的响应大小

ITEM_PIPELINES 管道对象,顺序任意

日志部分:

LOG_ENABLED 是否启用日志

LOG_ENCODING

LOG_FILE

LOG_FORMAT

LOG_DATEFORMAT

LOG_LEVEL 默认DEBUG

LOG_STDOUT 默认False

内存部分:

MEMUSAGE_LIMIT_MB 默认0,限制使用内存大小(得将MEMUSAGE_ENABLED设为True)

MEMUSAGE_NOTIFY_MAIL 达到内存使用限制后邮件通知

例MEMUSAGE_NOTIFY_MAIL  =  [ 'user@example.com' ]

MEMUSAGE_WARNING_MB  配合上一参数使用

最新文章

  1. 《CLR.via.C#第三版》第二部分第10,11章节读书笔记(五)
  2. Offline.js - 自动判断网络连接状态并提醒用户
  3. s1=s1+1与s1+=1的区别
  4. edX Devstack 汉化(i18n)
  5. 【转】iOS-Core-Animation-Advanced-Techniques(一)
  6. time date 基础操作
  7. bzoj 4196: [Noi2015]软件包管理器
  8. 用PHP,怎么获取PHP.ini中的文件上传最大的字节数。也就是默认的2M
  9. Angular 动画
  10. MVCAPi Httpclient
  11. Day6 Numerical simulation of optical wave propagation之通过随机介质(如大气湍流)的传播(二)
  12. 【Maven Jenkins】No resource to compile 还有多少坑要踩。。。LongTimeNoSee
  13. [C][代码实例]整型数组二分排序
  14. 面试知识点——Java
  15. python学习笔记:*args和**kwargs使用原理?
  16. aboutme and my goal
  17. 【技巧总结】Penetration Test Engineer[2]-Information gathering
  18. PCIe调试心得_DMA part3
  19. sublime插件总汇
  20. 经典SQL问题: 行转列,列转行

热门文章

  1. 转:解决Arcsde用户锁定的问题
  2. nProtect APPGuard安卓反外挂分析
  3. 《ArcGIS Runtime SDK for Android开发笔记》——(3)、ArcGIS Runtime SDK概述
  4. tfs2012安装
  5. tcpdump确认服务器连接的交换机信息
  6. 如何查询mysql中date类型的时间范围记录?
  7. [转载]在VB.Net中获取COM对象的特定实例(Getting a specific instance of COM object in VB.Net)
  8. April 30 2017 Week 18 Sunday
  9. Jmeter入门8 连接microsoft sql server数据库取数据
  10. IOS 九宫格算法