一、数据去重排序

1.1、去重

  distinct与group by

  尽量避免使用distinct进行排重,特别是大表操作,用group by代替  

-- 不建议
select DISTINCT key from a
-- 建议
select key from a group by key

1.2、排序优化

  只有order by产生的结果是全局有序的,可以根据实际场景进行选择排序。

  1、order by 实现全局排序,一个reduce实现,由于不能并发执行,所以效率偏低

  2、sort by实现部分有序,单个reduce输出的结果是有序的,效率高,通常和distribute by关键字一起使用

    (distribute by 关键字可以指定map到reduce端的分发key)

  3、cluster by col1等价于 distribute by col1 sort by col1但不能指定排序规则

二、数据倾斜

  任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。

  单一reduce的记录数与平均记录数差异过大,通常可能达到30倍甚至更多。最长时长远大于平均时长。

最新文章

  1. 为Apache动态增加模块
  2. Caffe学习系列(3):视觉层(Vision Layers)及参数
  3. MyBatis学习总结(八)——Mybatis3.x与Spring4.x整合
  4. C# 平时碰见的问题【2】
  5. DB2日期和时间函数汇总
  6. 好的android编码习惯
  7. #include <boost/shared_array.hpp>
  8. uva11922(强行用rope替代spaly)
  9. POJ 1113 || HDU 1348: wall(凸包问题)
  10. postfix疯狂外发垃圾邮件
  11. 打开phpmyadmin显示高级功能尚未完全设置部分功能未激活
  12. 简单搭建ES6的环境
  13. Centos6.5离线安装lsb_release
  14. Dynamics CRM 部署NLB后使用群集名称访问弹验证框验证不过的解决方法
  15. 【树莓派】使用VNC进行远程控制
  16. Pusher 消息推送测试工具
  17. js setInterval每隔一段时间执行一次
  18. [转] 测试环境下将centos6.8升级到centos7的操作记录
  19. 理解display中的box-flex属性
  20. 用js通过url传参把数据从一个页面传到另一个页面

热门文章

  1. 28. Search a 2D Matrix 【easy】
  2. python 分支结构
  3. Git merge two repositories (ZZ)
  4. EEPlat的元模型体系
  5. [转]为什么我说ORM是一种反模式
  6. size_t ssize_t loff_t 的区别
  7. C语言结构体指针的引用问题
  8. hdu 1078 FatMouse and Cheese【dp】
  9. LINUX手动查看和修改MTU值的方法
  10. Handler classes should be static or leaks might occur