scrapy-模块
2024-09-07 10:35:55
爬虫模块:beautifulsoup4
scrapy_splash:
pip install scrapy_splash
scrapy_splash模块,与selenium类似,用来获取js渲染后的html页面
scrapy-splash模块主要使用了Splash. 所谓的Splash, 就是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,Splash是用Python实现的,同时使用Twisted和QT。Twisted(QT)用来让服务具有异步处理能力,以发挥webkit的并发能力。
scrapy-splash使用的是Splash HTTP API, 所以需要一个splash instance,一般采用docker运行splash,所以需要安装docker。
安装好docker后:
拉取镜像:sudo dock pull scrapinghub/splash
然后创建容器:sudo docker run -p 8050:8050 scrapinghub/splash
验证是否安装成功:Splash运行在本地服务器的端口8050(http).在浏览器中输入'localhost:8050'测试
框架中的Request更换为SplashRequest,html就会通过splash服务获取
SplashRequest(url=url, callback=self.parse,argsargs,endpoint='render.html')
最新文章
- .NET中的逆变协变
- [AR]高通Vuforia之Frame Markers
- echarts
- debian 8 和centos 配置java 环境变量的正确姿态
- 2014 WAP校园招聘笔试题
- 【风马一族_Android】通过菜单的点击,跳转到不同界面
- mysql 闪回表工具
- JavaScript中的Date
- Android应用程序请求SurfaceFlinger服务创建Surface的过程分析
- nfs nobody,nobody 需要在nfs客户端修改从nfs服务器端共享过来的目录怎么办?
- 中软卓越IT培训:给IT程序员的18个忠告
- Hadoop源码篇---解读Mapprer源码outPut输出
- 从零开始搭建springboot+mybatis+thymeleaf增删改查示例
- asp.net获取当前请求的url
- CentOS7设置SVN自启动,提交报错,无权限.手动kill掉后重启,成功.
- Redis中的key的通用操作
- GRCh38基因组和注释文件探究
- Spring Cloud系列之客户端请求带“Authorization”请求头,经过zuul转发后丢失了
- django -- model中只有Field类型的数据才能成为数据库中的列
- 解决eclipse中断点调试不起作用的问题