爬虫模块:beautifulsoup4

scrapy_splash:

pip install scrapy_splash

scrapy_splash模块,与selenium类似,用来获取js渲染后的html页面

scrapy-splash模块主要使用了Splash. 所谓的Splash, 就是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,Splash是用Python实现的,同时使用Twisted和QT。Twisted(QT)用来让服务具有异步处理能力,以发挥webkit的并发能力。

scrapy-splash使用的是Splash HTTP API, 所以需要一个splash instance,一般采用docker运行splash,所以需要安装docker。

--https://www.cnblogs.com/jclian91/p/8590617.html

安装好docker后:

拉取镜像:sudo dock pull scrapinghub/splash

然后创建容器:sudo docker run -p 8050:8050 scrapinghub/splash

验证是否安装成功:Splash运行在本地服务器的端口8050(http).在浏览器中输入'localhost:8050'测试

框架中的Request更换为SplashRequest,html就会通过splash服务获取

SplashRequest(url=url, callback=self.parse,argsargs,endpoint='render.html')

最新文章

  1. .NET中的逆变协变
  2. [AR]高通Vuforia之Frame Markers
  3. echarts
  4. debian 8 和centos 配置java 环境变量的正确姿态
  5. 2014 WAP校园招聘笔试题
  6. 【风马一族_Android】通过菜单的点击,跳转到不同界面
  7. mysql 闪回表工具
  8. JavaScript中的Date
  9. Android应用程序请求SurfaceFlinger服务创建Surface的过程分析
  10. nfs nobody,nobody 需要在nfs客户端修改从nfs服务器端共享过来的目录怎么办?
  11. 中软卓越IT培训:给IT程序员的18个忠告
  12. Hadoop源码篇---解读Mapprer源码outPut输出
  13. 从零开始搭建springboot+mybatis+thymeleaf增删改查示例
  14. asp.net获取当前请求的url
  15. CentOS7设置SVN自启动,提交报错,无权限.手动kill掉后重启,成功.
  16. Redis中的key的通用操作
  17. GRCh38基因组和注释文件探究
  18. Spring Cloud系列之客户端请求带“Authorization”请求头,经过zuul转发后丢失了
  19. django -- model中只有Field类型的数据才能成为数据库中的列
  20. 解决eclipse中断点调试不起作用的问题

热门文章

  1. (十三)golang--程序流程控制
  2. Qt Quick 常用元素:Textinput 与 TextEdit 文本编辑框
  3. ng 打包给路径添加前缀
  4. SQL --------------- between 和< >
  5. js中的方法如何传入多个参数
  6. (转)MySQL中char(36)被认为是GUID导致的BUG及解决方案
  7. GitBook基本使用
  8. Arguments 对象、call()与apply()
  9. 【题解】邻值查找 [CH1301]
  10. printf()的用法