ken桑带你读源码 之scrapy scrapy\extensions
2024-09-07 19:29:35
logstats.py
爬虫启动时 打印抓取网页数 item数
memdebug.py
爬虫结束 统计还被引用的内存 也就是说gc 回收不了的内存
memusage.py
监控爬虫 内存占用 一旦超过 MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件 抓取过程中 还会统计 内存占用的峰值
spiderstate.py
爬虫启动时 把state 对象 读出来 关闭时 写回去
statsmailer.py
把爬虫全局统计信息 和 单个spider 的 统计信息发送到 email
telnet.py
启动telnet 服务器
throttle.py
这个是自动限速的
debug.py
捕捉 signal.SIGUSR2 进入调试状态 Pdb().set_trace(frame.f_back)
closespider.py
监控 爬虫错误次数 抓取次数 达到阀值即close spider
最新文章
- java.lang.Class.isPrimitive()用法解析
- ASP.NET生成WORD文档,服务器部署注意事项
- MFC:在OnInitDialog 里面关闭窗体
- 【翻译二】java--并发之进程与线程
- java之数组(笔记)
- Js闭包函数
- GForms 快速入门指南
- Network Wars
- NetFlow网络流量监测技术的应用和设计(转载)
- 《University Calculus》-chape8-无穷序列和无穷级数-基本极限恒等式
- oracle数据类型和对应的java类型
- Java第二周作业
- 解决安装YouCompleteMe与Vim版本不兼容问题
- hbase简单操作
- 关于svm
- MVC底层原理
- Vulkan vs OpenGL ES
- 无界面Ubuntu服务器搭建selenium+chromedriver+VNC运行环境
- webpack4.26的详细配置,包含babel, eslint, postcss, 及各种所需loader,内含大量注释
- HDU 2112 Today(Dijkstra+map)