spark的collect是action算子,所有最后会以数组的形式返回给driver端,当数据太大的时候就会出现堆内存溢出。OutofMemoryError:java heap space。

在spark中默认的数据的存储是1G的大小,spark.default.memory(default 1G)

解决方案:以saveAsTextFile算子将收集到的数据在文本的形式收集到本地磁盘或hdf文件系统。

最新文章

  1. python基础(二)
  2. 内存和flash存储的区别
  3. atitit.插件体系设计总结o73.doc
  4. FPGA speed grade
  5. Sqoop的使用(Mysql To HBase)
  6. 创建并使用Windows Azure虚拟机模板
  7. VS2010 error C2664: “CWnd::MessageBoxW”: 不能将参数 1 从“const char [3]”转换为“LPCTSTR”
  8. JAVA中字符串比較equals()和equalsIgnoreCase()的差别
  9. 反编译app方法
  10. AOP:代理思想 (没有考虑到Spring)
  11. Abp(.NetCore)开发与发布过程
  12. 【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用
  13. git基本概念
  14. makefile笔记6 - makefile条件判断
  15. HTML5效果:实现树叶飘落
  16. SCP传送文件时提示No ECDSA host key is known forx.x.x.x and you have requested strict checking.问题的解决办法
  17. Python基础(十一) 类继承
  18. jQuery层级选择器
  19. MySQL MHA 搭建&测试(环境:CentOS7 + MySQL5.7.23)
  20. Numpy:索引与切片

热门文章

  1. C之输入输出函数(2) -- gets()
  2. thinkphp 图形处理
  3. PHP ftp_get_option() 函数
  4. CSS格式化---属性排序
  5. 【LeetCode 23】合并K个排序链表
  6. Service3
  7. Ext 选项卡面板TabPanel
  8. QT--QSocketNotifier类介绍
  9. npm cnpm node yarn
  10. HTML5自定义属性的设置与获取