Scrapy 框架

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
Scrap,是碎片的意思,这个Python的爬虫框架叫Scrapy。

Scrapy运行原理图

scrapy执行流程

  • 一、引擎向spiders要url
  • 二、引擎将要爬取的url给调度器
  • 三、调度器会将url生成请求对象放到指定的队列中
  • 四、从队列中出队一个请求
  • 五、引擎将请求交给下载器进行处理
  • 六、下载器发送请求获取互联网数据
  • 七、下载器将数据返回给引擎
  • 八、引擎将数据再次给spiders
  • 九、spiders解析该数据,得到数据或url
  • 十、spiders将数据或者url给引擎
  • 十一、引擎判断是数据还是url,如果是数据交给管道(item pipeline)处理,是url交给调度器处理

最新文章

  1. Qt——自定义属性
  2. Ajax案例:三级联动查询员工的信息(三张表进行内连接)
  3. python--迭代--7
  4. Maven配置文件说明
  5. java操作spark1.2.0
  6. Java 类成员的初始化顺序
  7. hdu4722 Good Numbers
  8. WP8.1小梦词典开发1:金山词霸API使用
  9. JSON的简单书写(初学),使用Java语言反序列化
  10. mysql的left jion:就是left outer join(right join同理)
  11. 五分钟读懂UML类图(转)
  12. 2018-2019-2 网络对抗技术 20165328 Exp5 MSF基础应用
  13. 阿里云Ubuntu安装图形界面与中文语言包
  14. js读取txt文件
  15. SQL 查看SQL语句的执行时间 直接有效的方法
  16. asp.net Web API 身份验证 不记名令牌验证 Bearer Token Authentication 简单实现
  17. 枚举Enum 的常用方法
  18. [BUAA2017软工]第1次个人项目 数独
  19. Win10更新搜狗输入法后重启输入密码蓝屏
  20. Android Launcher分析和修改12——Widget列表信息收集

热门文章

  1. dll签名两种方法
  2. 死锁的Dump文件
  3. hadoop-11-ambari-server安装
  4. Dynamics CRM2013 Form利用window.location.reload()进行全局刷新带来的问题及解决的方法
  5. kibana 5.5 源码编译踩坑记录
  6. 安卓开发--ListView
  7. Hadoop框架基础(五)
  8. Python json数据中文输出问题。
  9. GoldenGate 进程
  10. nil gogo