不多说,直接上干货!

Spark任务调度

          

DAGScheduler

  构建Stage—碰到shuffle就split

  记录哪个RDD 或者Stage 输出被物化

  重新提交shuffle 输出丢失的stage

  将Taskset 传给底层调度器

  本地性策略--- preferredLocations(p)

1.spark-cluster TaskScheduler
2.yarn-cluster YarnClusterScheduler
3.yarn-client YarnClientClusterScheduler

TaskScheduler

  为每一个TaskSet 构建一个TaskSetManager 实例管理这个TaskSet 的生命周期

  数据本地性决定每个Task 最佳位置(process-local, node-local, rack-local and then and any

  提交taskset( 一组task) 到集群运行并监控

  推测执行,碰到straggle 任务放到别的节点上重试

  出现shuffle 输出lost 要报告fetch failed 错误

ScheduleBacked

  实现与底层资源调度系统的交互(YARN,mesos等)

  配合TaskScheduler实现具体任务执行所需的资源分配(核心接口receiveOffers)

  详细过程

实例分析

val lines = ssc.textFile(args(1)) // 输入
val words = lines.flatMap(x =>x.split(" "))
words.cache() // 缓存
val wordCounts = words.map(x =>(x, 1) )
val red = wordCounts.reduceByKey( (a,b)=>{a + b} , 8)
red.saveAsTextFile(“/root/Desktop/out” , 8) // 行动

最新文章

  1. hibernate一对一外键双向关联
  2. springmvc4+hibernate4+spring4注解一对多级联保存
  3. loading.gif
  4. HDU 3333 Turing Tree --树状数组+离线处理
  5. using 名称空间指定一个别名
  6. 502 bad gateway 错误
  7. 【Linux/Ubuntu学习 14】Linux下查看文件和文件夹大小
  8. iOS中FMDB和GCD剖析
  9. BZOJ_1834_[ZJOI2010]network 网络扩容_费用流
  10. linuxDNS
  11. 验证调用HttpServletResponse.getWriter().close()方法是否真的会关闭http连接
  12. 【Gym - 101124A】The Baguette Master (数学,几何)
  13. DX9 顶点缓存案例
  14. 这五件事,二次SaaS创业的老炮儿都在做(转)
  15. BOM浏览器对象模型;
  16. C#可空类型(转载)
  17. 使用java发送QQ邮件
  18. 黄聪:中国大陆的所有IP段,中国电信所有IP段、中国铁通所有IP段、中国网通所有IP段。
  19. Strapi 安装易错位置
  20. cacti添加多个tomcat监控(多端口)

热门文章

  1. (转)es6用法
  2. ubuntu+win10双系统,调整分区大小后进入了emergency mode
  3. APP开发过程的优惠券设计及流程
  4. CorelDRAW 2019线上发布会报名已开始
  5. mindmanager 2018 中文破解版_注册码_免激活
  6. 【airtest】报错:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(54, 'Connection reset by peer')),解决方法如下
  7. Linux 内核链表 list.h 的使用
  8. 数据结构(5) 第五天 快速排序、归并排序、堆排序、高级数据结构介绍:平衡二叉树、红黑树、B/B+树
  9. JTextArea+JScrollPane滚动条自动在最下边(转帖)
  10. Node-Blog整套前后端学习记录