1-Spark-1-性能调优-数据倾斜1-特征/常见原因/后果/常见调优方案
2024-10-21 12:54:51
数据倾斜特征:个别Task处理大部分数据
后果:1.OOM;2.速度变慢,甚至变得慢的不可接受
常见原因:
数据倾斜的定位:
1.WebUI(查看Task运行的数据量的大小)。
2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuffle产生了数据倾斜。
3.查看代码,主要是join,groupByKey,reduceByKey等代码。
4.对数据特征分布进行分析。
最新文章
- 开始学习bizTalk server了
- 终端更新ubuntu系统
- SQL三大范式三个例子搞定
- POJ 2318 TOYS【叉积+二分】
- SE11
- 动态创建和移除HTML标签
- 使用ReTrofit做缓存(结合上拉加载和下拉刷新)
- java复写equals例子
- SQL 模糊查询(like)
- 微信小程序setData()方法的详解以及对数组/json操作
- ssh整合hibernate 使用spring管理hibernate二级缓存,配置hibernate4.0以上二级缓存
- 【Unity&;C#】lambda函数
- chrony时间服务器
- hyperledger fabric各类节点及其故障分析 摘自https://www.cnblogs.com/preminem/p/8729781.html
- unmappable character for US-ASCII
- windows git 清除已保存的密码
- 【错误记录】flask mysql 死锁
- CSS继承元素属性
- Centos6.5升级openssh至7.4版本
- Perl 学习笔记-子程序
热门文章
- 005 vue路由
- 使用create-react-app遇到问题解决方案汇总
- odoo开发笔记 -- 跨域Refused to display in a frame because it set 'X-Frame-Options' to 'DENY'
- 【转】Python访问oracle数据库,DPI-1047: Cannot locate a 64-bit Oracle Client library: ";The specified module could not be found";
- django -xadmin 详解 功能实现及orm 的复习
- BDD介绍
- Extjs与Vue技术优劣势比较
- [LeetCode] 200. Number of Islands 岛屿的数量
- [LeetCode] 258. Add Digits 加数字
- 如何确定垃圾?JVM GC ?