Java heap space问题一般解决方案:

设置 set io.sort.mb=10; 排序所使用的内存数量,默认值是100M,和mapred.child.java.opts相对应,opts默认:-Xmx200m,则mb不能超过200M,否则会OOM。

设置 set hive.map.aggr=true; 是否在 Map 端进行聚合,默认为True,会在map端进行部分数据端聚合操作。

(可选)hive.groupby.mapaggr.checkinterval =100000; Map端进行聚合操作的数据条目,根据情况选择是否设置。

设置 set hive.groupby.skewindata=true; 设置true后当数据出现倾斜时,Hive会自动进行负载均衡。

当hive.groupby.skewindata选项设定为true时,查询计划会有两个MR Job。第一个MR Job 中,Map的输出结果集合会随机分布到Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照 GroupByKey 分布到 Reduce 中,该过程可以保证相同的 GroupByKey 被分布给同一个Reduce,完成最终的聚合操作。

来源: https://zlver.com

最新文章

  1. JavaScript toLowerCase() 方法 把字符串转换为小写
  2. iOS 状态栏隐藏显示
  3. Paxos算法细节详解(一)--通过现实世界描述算法
  4. 对于AP中为什么有4个WEP KEY的分析
  5. centos7配置mono和jexus5.6.2
  6. liquibase之快速入门
  7. Python tools used for file name devision
  8. 李明杰的视频和李明杰的博客是学习OC的基础
  9. shell 变量的使用
  10. ionic 打包安卓包
  11. C# log4net 的配置
  12. Spring MVC注解式开发
  13. SSH免密登陆原理及实现
  14. 编译原理作业(第一次)-完成retinf.c(阉割版)
  15. 用jquery的ajax方法获取return返回值的正确姿势
  16. SpringBoot使用Mybatis-Generator
  17. ----关于grid----
  18. 单细胞RNA测序技术之入门指南
  19. EF数据库优先模式(一)
  20. Hadoop生态圈-Hbase的rowKey设计原则

热门文章

  1. ASP.NET通过反射生成sql语句
  2. fiddler(二)、配置抓取https协议
  3. Codeforces Round #201.C-Alice and Bob
  4. react-router-dom 实现左侧导航
  5. 如何将项目托管到Github上
  6. 分布式-信息方式-ActiveMQ静态网络连接的容错
  7. 桥接模式下,主机能ping通虚拟机,虚拟机ping不通主机
  8. go GTK msys2
  9. [论文理解] Spatial Transformer Networks
  10. P2118 比例简化