scrapy爬虫框架处理流程简介
2024-08-21 11:05:15
1、SPIDERS的yeild将request发送给ENGIN
2、ENGINE对request不做任何处理发送给SCHEDULER
3、SCHEDULER( url调度器),生成request交给ENGIN
4、ENGINE拿到request,通过MIDDLEWARE进行层层过滤发送给DOWNLOADER
5、DOWNLOADER在网上获取到response数据之后,又经过MIDDLEWARE进行层层过滤发送给ENGIN
6、ENGINE获取到response数据之后,返回给SPIDERS,SPIDERS的parse()方法对获取到的response数据进行处理,解析出items或者requests
7、将解析出来的items或者requests发送给ENGIN
8、ENGIN获取到items或者requests,将items发送给ITEM PIPELINES,将requests发送给SCHEDULER
最新文章
- Cheat sheets
- C#------对SQLServer进行简单的增,删,改,查
- POJ Ant Counting DP
- 修改 jquery easyui 表单验证默认的样式
- [Bhatia.Matrix Analysis.Solutions to Exercises and Problems]ExI.2.1
- pat 1049. Counting Ones (30)
- (简单) LightOJ 1074 Extended Traffic,SPFA+负环。
- PAT All Roads Lead to Rome 单源最短路
- Java核心技术及面试指南 多线程部分的基本面试题总结以及答案
- springboot解决文件上传大小限制
- oracle11g 数据库修改 UTF8字符集
- grid和flex区别
- CUDA各版本官方下载地址
- 《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记:基础理论
- BZOJ5297 [CQOI2018] 交互网络 【MatrixTree定理】
- Jmeter使用自定义编写代码
- HDU1203(01背包)
- 团队项目7——团队冲刺beta版本目录
- 织梦任意页面调用{dede:field.content/}的方法
- 20170711xlVBA自定义分类汇总一例