• 比较重要的2个原因

–            1、基于内存

mapreduce任务每次都会把结果数据落地到磁盘,后续有其他的job需要依赖于前面job的输出结果,这里就需要进行大量的磁盘io操作,获取前面job的输出结果。性能非常低

    例如:select name,age from ( select * from user where address = 'beijing')
        ------------job2--------  ------------------job1-----------------------
    spark任务的输出结果可以保存在内存中,后续有其他的job需要依赖于前面job的输出结果,这里就只需要直接从内存中获取得到,大大减少磁盘io操作。

    spark框架适合于迭代计算
    job1----->job2----->job3----->job4----->job5----->jobN......

–           
2、进程和线程

mapreduce任务它是以进程的方式运行在yarn集群中,比如说一个mapreduce任务有100个MapTask,后期需要运行这100个task,就需要启动100个进程。
    spark任务它是以线程的方式运行在worker节点的executor进程中,比如说一个spark任务有100个MapTask,这里后期需要运行100个线程就可以了。
    可以这样极端一点:只需要启动一个进程,在一个进程中运行100个线程就可以了.开启一个进程比开启一个线程需要的时间和资源调度肯定是不一样,开启一个进程需要的时间远远大于线程.

最新文章

  1. Windows下搭建Wordpress博客网站
  2. Acionbar logo
  3. JQuery mobile中按钮自定义属性的改变
  4. java24
  5. Log4j简介
  6. Ubuntu下调整swap分区的大小
  7. SPFA+Dinic HDOJ 3416 Marriage Match IV
  8. 初学者用div+css结构写网页的几个误区
  9. In App Purchase
  10. Logistic回归总结
  11. print之模块化
  12. leetcode problem 31 -- Next Permutation
  13. 【菜逼从零学dp】dp专题
  14. vuecli3 项目添加配置文件以及使用@映射、代理
  15. 8_管理及IO重定向
  16. web安全系列2:http初探
  17. Netty实战十四之案例研究(一)
  18. 056、macvlan网络结构分析(2019-03-25 周一)
  19. [PKUWC 2018]随机游走
  20. oracle 回退表空间清理

热门文章

  1. Vue2.0响应式原理以及重写数组方法
  2. hashCode -哈希值,Object中的方法,常根据实际情况重写
  3. Windows下Navicat远程连接Linux下MySQL服务器错误1130
  4. CF1105C Ayoub and Lost Array ——动态规划
  5. python常用模块---collections、time、random、os、sys、序列号模块
  6. c# 获取 Apk ,Aar 文件包名
  7. C# PDF文件转图片
  8. Freeswitch Tutorial
  9. 系统调用的API以及汇编代码实现
  10. redis还要做