根据mapjoin的计算原理,MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况下即使笛卡尔积也不会对任务运行速度造成太大的效率影响。

mapjoin的应用场景如下:

1.有一个极小的表<1000行

2: 需要做不等值join的where操作(a.x < b.y 或者 a.x like b.y等,注:目前版本join下不支持不等值操作,不等值需加到where条件里)

如果把不等于写到where里会造成笛卡尔积,如果数据量很大,笛卡尔积的后果不可想象,速度可能慢的惊人!

根据mapjoin的计算原理,MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况下即使笛卡尔积也不会对任务运行速度造成太大的效率影响。

而且hive的where条件本身就是在map阶段进行的操作,所以在where里写入不等值比对的话,也不会造成额外负担。

如此看来,使用MAPJOIN开发的程序仅仅使用map一个过程就可以完成不等值join操作,效率还会有很大的提升。

案例讲解:

老板要显示会员每天的交易记录,没有记录的要显示0,数据库中没有交易的根本不会显示这条,怎么会显示为0呢,没办法,只能用会员每天汇总信息关联时间维表了。

测试数据请下载:会员每天交易信息汇总,16万左右数据: http://pan.baidu.com/s/1qWjp4ok

时间维表信息: 亲~ 自己构建吧。

create table hive_mapjoin (id string,dt string,amt double)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';

create table hive_dt (dt string);

load data local inpath '/lab/testdata/hive_mapjoin.txt' overwrite into table hive_mapjoin;

load data local inpath '/lab/testdata/hive_dt.txt' overwrite into table hive_dt;
  --无mapjoin

  create table hive_no_mapjoin as
  --求会员有交易以来的连续时间
  select f.id,f.dt, coalesce(k.amt,0.0) amt from(
  --求会员交易最小时间
  select a.id,t.dt from hive_dt t join (select id, min(dt) min_dt from hive_mapjoin group by id) a
  where t.dt>= a.min_dt) f
  left outer join hive_mapjoin k on f.dt = k.dt and f.id = k.id;


--有mapjoin
create table hive_ok_mapjoin as select f.id,f.dt, coalesce(k.amt,0.0) amt from(
--求会员有交易以来的连续时间
select /*+ mapjoin(t) */ a.id,t.dtfrom hive_dt t
join (
--求会员交易最小时间
select id,  min(dt) min_dt from hive_mapjoin group by id) a
where  t.dt>= a.min_dt) f
left outer join tmp.tst1 kon f.dt = k.dt and f.id = k.id;

测试结果:无mapjoin执行3分钟,有mapjoin执行2分钟

结果分析:样本数据太少,不到20万数据,小表数据不足200条,最终结果只有200多万。hive处理这点数据还是很轻松的,大家如果测试,建议数据量要大些,至少执行结果千万条以上才能看出效果

  • 小表在前,数据量不要大于200M (仅参考)
  • 大表不要太小,太小了意义不大

最新文章

  1. 使用Python来对MySQL数据库进行操作
  2. bzoj2535 2109
  3. “MVC+Nhibernate+Jquery-EasyUI”信息发布系统 第二篇(数据库结构、登录窗口、以及主界面)
  4. 关于php的socket
  5. js 禁止重复提交
  6. 【蓝牙数据采集模块】-02-Sensor Controller 编写CC2650STK外设驱动
  7. npm常用命令及版本号浅析
  8. 转-Windows路由表配置:双网卡路由分流
  9. HttpWebRequest 改为 HttpClient 踩坑记-请求头设置
  10. 配置 Docker 加速器:适用于 Ubuntu14.04、Debian、CentOS6 、CentOS7、Fedora、Arch Linux、openSUSE Leap 42.1
  11. 二进制加法Java实现
  12. 对JavaScript中闭包的理解
  13. 关于JS拒绝访问错误
  14. hdu5064 DLX可重复覆盖+二分
  15. 【Python】进程-控制块
  16. mysql小试题3
  17. Log4cplus使用指南
  18. [微信小程序]计算自己手机到指定位置的距离
  19. 洛谷P3368 树状数组2 树状数组+差分
  20. spring security 表单认证的流程

热门文章

  1. esriFeatureType与esriGeometryType的区别与联系
  2. 258. Add Digits
  3. 《数据通信与网络》笔记--TCP中的拥塞控制
  4. 2014图灵技术图书最受欢迎TOP15
  5. [Codeforces673C]Bear and Colors(枚举,暴力)
  6. nodejs初写心得
  7. 强势解决:windows 不能在本地计算机中起动Tomcat参考特定错误代码1
  8. bzoj1567: [JSOI2008]Blue Mary的战役地图
  9. bzoj4177: Mike的农场
  10. eval绑定decimal数据后,如何去掉后面没有意义的0?