spark异常篇-OutOfMemory:GC overhead limit exceeded
2024-09-05 07:23:21
执行如下代码时报错
# encoding:utf-8
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession conf = SparkConf().setMaster('yarn')
sc = SparkContext(conf=conf)
spark = SparkSession(sc)
rdd = spark.read.csv('/spark/gps/GPS1.csv')
print rdd.count()
print rdd.repartition(10000).count()
print rdd.repartition(10000).collect() # 报错 spark-OutOfMemory:GC overhead limit exceeded
执行命令
spark-submit --master yarn bigdata.py
报错内容
spark-OutOfMemory:GC overhead limit exceeded
在执行 count 时没什么问题,各种参数影响不大;但是在执行 collect 时,总是报错
原因分析
1. collect 导致数据回传 Driver,致使 Driver 内存溢出
解决方法是增加 Driver 内存
spark-submit --master yarn --executor-cores 4 --driver-memory 3G bigdata.py
2. executor-core 数量太多,导致多个 core 之间争夺 GC 时间以及资源,最后导致大部分时间都花在了 GC 上
解决方法是减少 core 数量
spark-submit --master yarn --executor-cores 1 bigdata.py
参考资料:
https://blog.csdn.net/amghost/article/details/45303315
最新文章
- 【转】Oracle索引的类型
- C和指针 第七章 可变参数
- selector 的用法,在选择和不选择情况下的颜色
- SQL SERVER CURSOR游标的使用(转载)
- iTunesConnect进行App转移
- Qt之Meta-Object系统
- Hibernate 检索查询的几种方式(HQL,QBC,本地SQL,集成Spring等)
- smarty实现缓存
- 《工作型PPT设计之道》培训心得
- Struts标签<;s:iterator>;遍历访问复杂Map对象
- [BZOJ 1143] [CTSC2008] 祭祀river 【最长反链】
- Nginx 模块开发(1)—— 一个稍稍能说明问题模块开发 Step By Step 过程
- (转)WIN2003服务器禁PING的方法
- Day3:T1数论+高精 T2搜索
- 详解Struts2拦截器机制
- Jenkins 在声明式 pipeline 中并行执行任务
- map对象拷贝问题
- innerText、innerHtml与value
- 【工利其器】必会工具之(三)systrace篇(2)
- Windows安装nvm和node, 以及安装live-server