Spark任务调度
2024-10-01 10:55:05
不多说,直接上干货!
Spark任务调度
DAGScheduler
构建Stage—碰到shuffle就split
记录哪个RDD 或者Stage 输出被物化
重新提交shuffle 输出丢失的stage
将Taskset 传给底层调度器
本地性策略--- preferredLocations(p)
1.spark-cluster TaskScheduler
2.yarn-cluster YarnClusterScheduler
3.yarn-client YarnClientClusterScheduler
TaskScheduler
为每一个TaskSet 构建一个TaskSetManager 实例管理这个TaskSet 的生命周期
数据本地性决定每个Task 最佳位置(process-local, node-local, rack-local and then and any
提交taskset( 一组task) 到集群运行并监控
推测执行,碰到straggle 任务放到别的节点上重试
出现shuffle 输出lost 要报告fetch failed 错误
ScheduleBacked
实现与底层资源调度系统的交互(YARN,mesos等)
配合TaskScheduler实现具体任务执行所需的资源分配(核心接口receiveOffers)
详细过程
实例分析
val lines = ssc.textFile(args(1)) // 输入
val words = lines.flatMap(x =>x.split(" "))
words.cache() // 缓存
val wordCounts = words.map(x =>(x, 1) )
val red = wordCounts.reduceByKey( (a,b)=>{a + b} , 8)
red.saveAsTextFile(“/root/Desktop/out” , 8) // 行动
最新文章
- hibernate一对一外键双向关联
- springmvc4+hibernate4+spring4注解一对多级联保存
- loading.gif
- HDU 3333 Turing Tree --树状数组+离线处理
- using 名称空间指定一个别名
- 502 bad gateway 错误
- 【Linux/Ubuntu学习 14】Linux下查看文件和文件夹大小
- iOS中FMDB和GCD剖析
- BZOJ_1834_[ZJOI2010]network 网络扩容_费用流
- linuxDNS
- 验证调用HttpServletResponse.getWriter().close()方法是否真的会关闭http连接
- 【Gym - 101124A】The Baguette Master (数学,几何)
- DX9 顶点缓存案例
- 这五件事,二次SaaS创业的老炮儿都在做(转)
- BOM浏览器对象模型;
- C#可空类型(转载)
- 使用java发送QQ邮件
- 黄聪:中国大陆的所有IP段,中国电信所有IP段、中国铁通所有IP段、中国网通所有IP段。
- Strapi 安装易错位置
- cacti添加多个tomcat监控(多端口)
热门文章
- (转)es6用法
- ubuntu+win10双系统,调整分区大小后进入了emergency mode
- APP开发过程的优惠券设计及流程
- CorelDRAW 2019线上发布会报名已开始
- mindmanager 2018 中文破解版_注册码_免激活
- 【airtest】报错:requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(54, 'Connection reset by peer')),解决方法如下
- Linux 内核链表 list.h 的使用
- 数据结构(5) 第五天 快速排序、归并排序、堆排序、高级数据结构介绍:平衡二叉树、红黑树、B/B+树
- JTextArea+JScrollPane滚动条自动在最下边(转帖)
- Node-Blog整套前后端学习记录