一、pyspider简介

  1、通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性

  2、通过web化的脚本编写、调试环境。web展现调度状态

  3、抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展

  

  

  1、各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制

  2、任务由 scheduler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环。

  3、每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。

二、安装

  1、首先确保你已经安装了pip,若没有安装,请参照: http://pip-cn.readthedocs.io/en/latest/installing.html

  2、PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速、原生支持各种Web标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。请参照:http://phantomjs.org/download.html

  3、直接利用 pip 安装即可

    pip install pyspider 或者下载:https://github.com/binux/pyspider/releases 后解压利用 python setup.py install进行安装

    

  4、官方文档:http://docs.pyspider.org/en/latest/

三、测试

  安装完成后在命令行输入:pyspider all

  

  

  然后浏览器访问 http://localhost:5000

  观察一下效果,如果可以正常出现 PySpider 的页面,那证明一切OK

  在此附图一张,这是我写了几个爬虫之后的界面。

  

  

最新文章

  1. 思考JavaScript异常如何转为知识库?
  2. MFC-01-Chapter01:Hello,MFC---1.3 第一个MFC程序(05)
  3. input为disabled提交后得不到该值的解决方法
  4. Change MYSQL data directory
  5. 基础篇-Windows消息机制
  6. ios kaifa
  7. 修改eclipse默认编码方式
  8. 接触.net5年了,感觉自己的知识面很狭隘。
  9. 详解TypScript数据类型转换
  10. [daily] 不让NetworkManger自动接管网络设备
  11. Delphi 10.2 新特性之—TFDBatchMoveJSONWriter
  12. Manjaro下安装VirtualBox
  13. vue-router2.x使用入门
  14. IntelliJ IDEA汉化步骤以及乱码解决
  15. php中编码转换方法
  16. 查看Linux内核及发行商版本命令
  17. JS BUG 传递数字过大,数据值会变化
  18. Prime Gift CodeForces - 912E (中途相遇)
  19. Oracle top 查询TOP SQL
  20. (二)RocketMq入门之消息发送和接收

热门文章

  1. Openstack 清除openstack网络与路由 (十七)
  2. jquery canvas 用户点击记录
  3. Noip2015提高组解题报告
  4. 洛谷——P2299 Mzc和体委的争夺战
  5. Linux的重定向与管道
  6. 【拓展Lucas】模板
  7. 【概率dp】【滚动数组】CDOJ1652 都市大飙车
  8. JDK源码学习笔记——Object
  9. 20172333 2017-2018-2 《Java程序设计》第2周学习总结
  10. WPF的UI虚拟化