1.从同一个数据源尽量只创建一个rdd,后续业务逻辑复用该rdd
2.如果要对某个rdd进行多次的transformation或action操作,应当持久化该rdd
3.从数据源读取到rdd后,要尽早的进行filter操作以过滤掉无用的数据
4.尽量避免使用shffle算子,使用shuffle时,应尽量减少shuffle的数据量,可以用reducebykey 取代 groupbykey
5.熟悉算子机制,尽量使用高性能算子
6.对于打的变量,尽可能的使用广播机制
7.尽可能使用kryo优化序列化性能
8.提高程序的并行度,增加运算资源,将task少的任务repartition
9.进行序列化和压缩

最新文章

  1. Struts2框架基础
  2. ./configure,make,make install的作用
  3. ASP.Net Core 里是如何把一个普通的 Action 返回类型转换为某种 IActionResult 的
  4. AutoCompleteTextView自动补全文本框
  5. Pexels Videos – 可以免费商业使用的短视频
  6. 移动平台3G手机网站前端开发布局技巧
  7. leetcode之Count Complete Tree Nodes
  8. ios入门之c语言篇——基本函数——4——数值交换函数
  9. Linux操作系统定时任务系统Cron入门、PHP计划任务以及rpc示例
  10. 《JAVA与模式》之单例模式 [转]
  11. ACE_Message_Block消息数据类
  12. Linux下的进程与线程(一)—— 进程概览
  13. linux中的shell脚本编程---初识shell
  14. Tomcat 下4个配置文件详解
  15. oracle中用while循环查询1到100的质数(素数)
  16. BootStrap table动态增删改表格内数据
  17. CentOS 6.8 安装TigerVNC 实现 Linux 远程桌面并安装火狐浏览器
  18. 第四章:Android架构
  19. 牛刀小试MySQL--日志文件
  20. vs添加webservice

热门文章

  1. Ofbiz项目学习——阶段性小结——删除数据
  2. 前端jsp fetch跨域调用 is not allowed by Access-Control-Allow-Origin.
  3. First-class function
  4. Spring Data JPA:关联映射操作
  5. space-cloud 支持多数据库多rest&& graphql web server
  6. A%G^C006
  7. 信息学奥赛一本通 提高篇 序列第k个数 及 快速幂
  8. JVM相关内容简介(转)
  9. mark一下咕掉的题目
  10. golang字节数组拷贝BlockCopy函数实现