scrapy五大核心组件  

    • 引擎(Scrapy)
      用来处理整个系统的数据流处理, 触发事务(框架核心)
    • 调度器(Scheduler)
      用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
    • 下载器(Downloader)
      用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
    • 爬虫(Spiders)
      爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
    • 项目管道(Pipeline)
      负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。

  

最新文章

  1. 网站中使用echart
  2. Winform的"透明"
  3. Object[]arr代码输出奇怪字符的解释
  4. [转载]字符编码笔记:ASCII,Unicode和UTF-8
  5. Android调试优化篇
  6. js原生之scrollTop、offsetHeight和offsetTop等属性用法详解
  7. 【渗透测试】PHPCMS9.6.0 任意文件上传漏洞+修复方案
  8. Chef 自动化运维:开始“烹饪”
  9. JMeter调试参数是否取值正确,调试正则提取的结果(log.info|log.error|print)
  10. Windows下安装MySQL5.7.18的方法
  11. PAT基础6-10
  12. 一个关于margin-top的问题
  13. 子序列的按位或 Bitwise ORs of Subarrays
  14. svn导出文件进行比较
  15. 触发Full GC执行的情况 以及其它补充信息
  16. Python开发【模块】:M2Crypto RSA加密、解密
  17. DataGridView绑定list的注意事项
  18. Selenium WebDriver(Python)API
  19. java数组复制的简单方法(一)
  20. Sqlserver风格规范

热门文章

  1. vue.js click点击事件获取当前元素对象
  2. javascript-如何获取标签的内容
  3. redis实现排行榜思路
  4. Eureka重点原理解析
  5. 手把手教你用Rancher创建产品质量数据库设置
  6. Microsoft Dynamics CRM 2015 服务器系统的性能维护,追踪, 也可以用到任务管理器哟...
  7. chrome清除缓存、不使用缓存而刷新快捷键
  8. Linux下创建 code diff 和 合并 patch
  9. 实战-MySQL定时增量备份(2)
  10. Leetcode---Solutions&Notes