本篇主要是记录自己在中解决RDD编程性能问题中查阅的论文博客,为我认为写的不错的建立索引方便查阅,我的总结会另立他篇

1)通过分区(Partitioning)提高spark性能
https://blog.csdn.net/qq_32649581/article/details/83029852

2)DataFrame的repartition、partitionBy、coalesce区别

https://blog.csdn.net/u010720408/article/details/90229461

3)spark核心构件之partitioner
https://www.jianshu.com/p/67fff2e477fa

4)Spark中cache和persist的作用以及存储级别

https://blog.csdn.net/qq_20641565/article/details/76216417

 

4)数据倾斜原因及解决方案
https://blog.csdn.net/qq_38247150/article/details/80366769

https://www.cnblogs.com/qiuhong10/p/7762532.html

4)水塘抽样(Reservoir Sampling)问题
理论基础 https://www.cnblogs.com/strugglion/p/6424874.html
RangePartitioner https://blog.csdn.net/u011564172/article/details/54380574

Spark异常处理

1)Spark异常处理——Shuffle FetchFailedException

https://www.jianshu.com/p/23182ea3892d

最新文章

  1. 第九周 psp
  2. asp.net web api返回图片至前端
  3. XMPP系列2:如何掌握XMPP协议
  4. 每天php函数 - list()给一组变量赋值
  5. SQL Server 执行计划
  6. [问题解决] "Nautilus could not create the required folder "/home/kenneth/.config/nautilus"
  7. JAVA实例变量的初始化过程
  8. php 用递归实现的无限级别分类
  9. 遍历Javascript数组的一种方法!
  10. Servlet 服务器端小程序
  11. python中重要的模块--asyncio
  12. Cookie 和 Session的基本使用
  13. Android开发学习之路--Camera之初体验
  14. 网易内推(Android) 拿offer
  15. javascript 实现数据结构 - 栈
  16. git开发常用命令
  17. 基于Java的HashMap和HashSet实现
  18. PostgreSQL分页
  19. servlet增删改查
  20. Linux背背背(2)

热门文章

  1. 剑指offer计划9(动态规划中等版)---java
  2. noip模拟43
  3. vim编辑器设置
  4. weblogic从ssrf到redis获取shell
  5. Vue3 父组件调用子组件的方法
  6. logstash-input-jdbc 同时同步多个表的情况
  7. PTA面向对象程序设计6-3 面积计算器(函数重载)
  8. python 金币小游戏
  9. 学习PHP中统计扩展函数的使用
  10. Linux系列(38) - 源码包安装(2)