ken桑带你读源码之scrapy scrapy\extensions

logstats.py

爬虫启动时打印抓取网页数 item数

memdebug.py

爬虫结束统计还被引用的内存也就是说gc 回收不了的内存　　

memusage.py

监控爬虫内存占用一旦超过 MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件抓取过程中还会统计内存占用的峰值

spiderstate.py

爬虫启动时把state 对象读出来关闭时写回去

statsmailer.py

把爬虫全局统计信息和单个spider 的统计信息发送到 email

telnet.py

启动telnet 服务器

throttle.py

这个是自动限速的

debug.py

捕捉 signal.SIGUSR2 进入调试状态 Pdb().set_trace(frame.f_back)

closespider.py

监控爬虫错误次数抓取次数达到阀值即close spider

巴特西