pyspider介绍及安装
一、pyspider简介
1、通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性
2、通过web化的脚本编写、调试环境。web展现调度状态
3、抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展
1、各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制
2、任务由 scheduler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环。
3、每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。
二、安装
1、首先确保你已经安装了pip,若没有安装,请参照: http://pip-cn.readthedocs.io/en/latest/installing.html
2、PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速、原生支持各种Web标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。请参照:http://phantomjs.org/download.html
3、直接利用 pip 安装即可
pip install pyspider 或者下载:https://github.com/binux/pyspider/releases 后解压利用 python setup.py install进行安装
4、官方文档:http://docs.pyspider.org/en/latest/
三、测试
安装完成后在命令行输入:pyspider all
然后浏览器访问 http://localhost:5000
观察一下效果,如果可以正常出现 PySpider 的页面,那证明一切OK
在此附图一张,这是我写了几个爬虫之后的界面。
最新文章
- 思考JavaScript异常如何转为知识库?
- MFC-01-Chapter01:Hello,MFC---1.3 第一个MFC程序(05)
- input为disabled提交后得不到该值的解决方法
- Change MYSQL data directory
- 基础篇-Windows消息机制
- ios kaifa
- 修改eclipse默认编码方式
- 接触.net5年了,感觉自己的知识面很狭隘。
- 详解TypScript数据类型转换
- [daily] 不让NetworkManger自动接管网络设备
- Delphi 10.2 新特性之—TFDBatchMoveJSONWriter
- Manjaro下安装VirtualBox
- vue-router2.x使用入门
- IntelliJ IDEA汉化步骤以及乱码解决
- php中编码转换方法
- 查看Linux内核及发行商版本命令
- JS BUG 传递数字过大,数据值会变化
- Prime Gift CodeForces - 912E (中途相遇)
- Oracle top 查询TOP SQL
- (二)RocketMq入门之消息发送和接收