spark 性能优化简要总结
2024-08-28 00:17:05
1.从同一个数据源尽量只创建一个rdd,后续业务逻辑复用该rdd
2.如果要对某个rdd进行多次的transformation或action操作,应当持久化该rdd
3.从数据源读取到rdd后,要尽早的进行filter操作以过滤掉无用的数据
4.尽量避免使用shffle算子,使用shuffle时,应尽量减少shuffle的数据量,可以用reducebykey 取代 groupbykey
5.熟悉算子机制,尽量使用高性能算子
6.对于打的变量,尽可能的使用广播机制
7.尽可能使用kryo优化序列化性能
8.提高程序的并行度,增加运算资源,将task少的任务repartition
9.进行序列化和压缩
最新文章
- Struts2框架基础
- ./configure,make,make install的作用
- ASP.Net Core 里是如何把一个普通的 Action 返回类型转换为某种 IActionResult 的
- AutoCompleteTextView自动补全文本框
- Pexels Videos – 可以免费商业使用的短视频
- 移动平台3G手机网站前端开发布局技巧
- leetcode之Count Complete Tree Nodes
- ios入门之c语言篇——基本函数——4——数值交换函数
- Linux操作系统定时任务系统Cron入门、PHP计划任务以及rpc示例
- 《JAVA与模式》之单例模式 [转]
- ACE_Message_Block消息数据类
- Linux下的进程与线程(一)—— 进程概览
- linux中的shell脚本编程---初识shell
- Tomcat 下4个配置文件详解
- oracle中用while循环查询1到100的质数(素数)
- BootStrap table动态增删改表格内数据
- CentOS 6.8 安装TigerVNC 实现 Linux 远程桌面并安装火狐浏览器
- 第四章:Android架构
- 牛刀小试MySQL--日志文件
- vs添加webservice