017-Hadoop Hive sql语法详解7-去重排序、数据倾斜
2024-09-28 12:15:35
一、数据去重排序
1.1、去重
distinct与group by
尽量避免使用distinct进行排重,特别是大表操作,用group by代替
-- 不建议
select DISTINCT key from a
-- 建议
select key from a group by key
1.2、排序优化
只有order by产生的结果是全局有序的,可以根据实际场景进行选择排序。
1、order by 实现全局排序,一个reduce实现,由于不能并发执行,所以效率偏低
2、sort by实现部分有序,单个reduce输出的结果是有序的,效率高,通常和distribute by关键字一起使用
(distribute by 关键字可以指定map到reduce端的分发key)
3、cluster by col1等价于 distribute by col1 sort by col1但不能指定排序规则
二、数据倾斜
任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
单一reduce的记录数与平均记录数差异过大,通常可能达到30倍甚至更多。最长时长远大于平均时长。
最新文章
- 为Apache动态增加模块
- Caffe学习系列(3):视觉层(Vision Layers)及参数
- MyBatis学习总结(八)——Mybatis3.x与Spring4.x整合
- C# 平时碰见的问题【2】
- DB2日期和时间函数汇总
- 好的android编码习惯
- #include <;boost/shared_array.hpp>;
- uva11922(强行用rope替代spaly)
- POJ 1113 || HDU 1348: wall(凸包问题)
- postfix疯狂外发垃圾邮件
- 打开phpmyadmin显示高级功能尚未完全设置部分功能未激活
- 简单搭建ES6的环境
- Centos6.5离线安装lsb_release
- Dynamics CRM 部署NLB后使用群集名称访问弹验证框验证不过的解决方法
- 【树莓派】使用VNC进行远程控制
- Pusher 消息推送测试工具
- js setInterval每隔一段时间执行一次
- [转] 测试环境下将centos6.8升级到centos7的操作记录
- 理解display中的box-flex属性
- 用js通过url传参把数据从一个页面传到另一个页面
热门文章
- 28. Search a 2D Matrix 【easy】
- python 分支结构
- Git merge two repositories (ZZ)
- EEPlat的元模型体系
- [转]为什么我说ORM是一种反模式
- size_t ssize_t loff_t 的区别
- C语言结构体指针的引用问题
- hdu 1078 FatMouse and Cheese【dp】
- LINUX手动查看和修改MTU值的方法
- Handler classes should be static or leaks might occur