Spark RDD 宽窄依赖
2024-09-02 14:16:24
RDD 宽窄依赖
RDD之间有一系列的依赖关系, 可分为窄依赖和宽依赖
- 窄依赖
- 从 RDD 的 parition 角度来看
- 父 RRD 的 parition 和 子 RDD 的 parition 之间的关系是一对一的 (或 者是多对一的)。
- 不会有 shuffle 产生
- 宽依赖
- 父 RRD 的 parition 和 子 RDD 的 parition 之间的关系是一对多的
- 会产生shuffle
- 窄依赖
理解图
对stage(阶段)划分的影响
DAGSchedular 根据依赖类型切割RDD划分stage, 如果是宽依赖, 就进行切割, 并且递归查找其所有父类RDD
示意图:
最新文章
- 【初码干货】使用阿里云对Web开发中的资源文件进行CDN加速的深入研究和实践
- 【MySQL】函数IFNULL、设置默认时间
- zorka源码解读之Beanshell与zorka的交互实现
- Android——requestWindowFeature
- 独立IP与共享IP的区别
- 基本SQL语句练习(order by,group by,having)
- 跨域1-CORS跨域
- i++与++i区别
- Linux查看磁盘空间大小命令
- 【DDD】领域驱动设计实践 —— 业务建模战术
- 【Spark】SparkStreaming-Kafka-Redis-集成-基础参考资料
- how-to-get-a-job-in-deep-learning
- windows下gcc的安装
- Visual Studio和eclipse的大小写转换快捷键
- exception PLS-00403: expression 'V_END' cannot be used as an INTO-target of a SELECT/FETCH statement
- javascript publish/subscribe or observer pattern
- swd 适配器接口线序
- makefile文件。批处理文件。
- SpringMVC 配置多个dispatcher 及WebApplicationInitializer的使用
- iNode协议再次分析