有一张很大的表:TRLOG
该表大概有2T左右
TRLOG:
CREATE TABLE TRLOG
(PLATFORM string,
USER_ID int,
CLICK_TIME string,
CLICK_URL string)
row format delimited
fields terminated by '\t';

数据:
PLATFORM USER_ID CLICK_TIME CLICK_URL
WEB 12332321 2013-03-21 13:48:31.324 /home/
WEB 12332321 2013-03-21 13:48:32.954 /selectcat/er/
WEB 12332321 2013-03-21 13:48:46.365 /er/viewad/12.html
WEB 12332321 2013-03-21 13:48:53.651 /er/viewad/13.html
WEB 12332321 2013-03-21 13:49:13.435 /er/viewad/24.html
WEB 12332321 2013-03-21 13:49:35.876 /selectcat/che/
WEB 12332321 2013-03-21 13:49:56.398 /che/viewad/93.html
WEB 12332321 2013-03-21 13:50:03.143 /che/viewad/10.html
WEB 12332321 2013-03-21 13:50:34.265 /home/
WAP 32483923 2013-03-21 23:58:41.123 /m/home/
WAP 32483923 2013-03-21 23:59:16.123 /m/selectcat/fang/
WAP 32483923 2013-03-21 23:59:45.123 /m/fang/33.html
WAP 32483923 2013-03-22 00:00:23.984 /m/fang/54.html
WAP 32483923 2013-03-22 00:00:54.043 /m/selectcat/er/
WAP 32483923 2013-03-22 00:01:16.576 /m/er/49.html
…… …… …… ……

需要把上述数据处理为如下结构的表ALLOG:
CREATE TABLE ALLOG
(PLATFORM string,
USER_ID int,
SEQ int,
FROM_URL string,
TO_URL string)
row format delimited
fields terminated by '\t';

整理后的数据结构:
PLATFORM USER_ID SEQ FROM_URL TO_URL
WEB 12332321 1 NULL /home/
WEB 12332321 2 /home/ /selectcat/er/
WEB 12332321 3 /selectcat/er/ /er/viewad/12.html
WEB 12332321 4 /er/viewad/12.html /er/viewad/13.html
WEB 12332321 5 /er/viewad/13.html /er/viewad/24.html
WEB 12332321 6 /er/viewad/24.html /selectcat/che/
WEB 12332321 7 /selectcat/che/ /che/viewad/93.html
WEB 12332321 8 /che/viewad/93.html /che/viewad/10.html
WEB 12332321 9 /che/viewad/10.html /home/
WAP 32483923 1 NULL /m/home/
WAP 32483923 2 /m/home/ /m/selectcat/fang/
WAP 32483923 3 /m/selectcat/fang/ /m/fang/33.html
WAP 32483923 4 /m/fang/33.html /m/fang/54.html
WAP 32483923 5 /m/fang/54.html /m/selectcat/er/
WAP 32483923 6 /m/selectcat/er/ /m/er/49.html
…… …… …… ……
PLATFORM和USER_ID还是代表平台和用户ID;SEQ字段代表用户按时间排序后的访问顺序,FROM_URL和TO_URL分别代表用户从哪一页跳转到哪一页。对于某个平台上某个用户的第一条访问记录,其FROM_URL是NULL(空值)。

面试官说需要用两种办法做出来:
1、实现一个能加速上述处理过程的Hive Generic UDF,并给出使用此UDF实现ETL过程的Hive SQL

2、实现基于纯Hive SQL的ETL过程,从TRLOG表生成ALLOG表;(结果是一套SQL)

答案:

1.

UDF

  1. package org.apache.hadoop.hive.udf;
  2. public class RowNumber extends org.apache.hadoop.hive.ql.exec.UDF {
  3. private static int MAX_VALUE = 50;
  4. private static String comparedColumn[] = new String[MAX_VALUE];
  5. private static int rowNum = 1;
  6. public int evaluate(Object... args) {
  7. String columnValue[] = new String[args.length];
  8. for (int i = 0; i < args.length; i++)
  9. columnValue[i] = args[i].toString();
  10. if (rowNum == 1)
  11. {
  12. for (int i = 0; i < columnValue.length; i++)
  13. comparedColumn[i] = columnValue[i];
  14. }
  15. for (int i = 0; i < columnValue.length; i++)
  16. {
  17. if (!comparedColumn[i].equals(columnValue[i]))
  18. {
  19. for (int j = 0; j < columnValue.length; j++)
  20. {
  21. comparedColumn[j] = columnValue[j];
  22. }
  23. rowNum = 1;
  24. return rowNum++;
  25. }
  26. }
  27. return rowNum++;
  28. }
  29. public static void main(String[] args) {
  30. RowNumber aRowNumber = new RowNumber();
  31. System.out.println(aRowNumber.evaluate("12332321"));
  32. System.out.println(aRowNumber.evaluate("12332321"));
  33. System.out.println(aRowNumber.evaluate("12332321"));
  34. System.out.println(aRowNumber.evaluate("12332321"));
  35. System.out.println(aRowNumber.evaluate("12332321"));
  36. }
  37. }

INSERT OVERWRITE TABLE ALLOG
SELECT t1.platform,t1.user_id,RowNumber(t1.user_id)seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(select *,RowNumber(user_id)seq from trlog)t1
LEFT OUTER JOIN
(select *,RowNumber(user_id)seq from trlog)t2
on t1.user_id = t2.user_id and t1.seq=t2.seq+1;

2.

INSERT OVERWRITE TABLE ALLOG
SELECT t1.platform,t1.user_id,t1.seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2  FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url)t1
LEFT OUTER JOIN
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2  FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url )t2 
on t1.user_id = t2.user_id and t1.seq = t2.seq + 1;

最新文章

  1. ios视频播放器,代码和界面分离
  2. Quartz2D之生成圆形头像、打水印、截图三种方法的封装
  3. dzzoffice应用如何安装
  4. js key事件 keyCode大全
  5. SCGHR 系统设计
  6. Bestcoder #47 B Senior&amp;#39;s Gun
  7. python操作redis-zset
  8. ASP.NET MVC进阶之路:深入理解Controller激活机制并使用Ioc容器创建对象
  9. 如何将UISearchBar上&quot;Cancel&quot;按钮改为”取消“?
  10. Windows Phone开发(11):常用控件(下)
  11. Javascript多线程引擎(六)
  12. 微信小程序中实现微信支付
  13. Android判断一个点是否在矩形区域内
  14. MySQL 优化实战记录
  15. python2入门(2)
  16. python-django rest framework框架
  17. 暴力探测蓝牙设备工具redfang
  18. Java中static、final用法小结(转)
  19. Live555实战之交叉编译live555共享库
  20. 微信公众号开发 [03] 结合UEditor实现图文消息群发功能

热门文章

  1. linux入门 配置网络
  2. python全栈开发_day5_字符串及列表类型
  3. AC自动机模板题
  4. alpha-beta搜索算法
  5. win 10安装应用程序提示Error 1317的解决方法
  6. Linux - 组管理和权限管理
  7. spring cloud知识点
  8. 3dsmax2014卸载/安装失败/如何彻底卸载清除干净3dsmax2014注册表和文件的方法
  9. spring、springmvc和mybatis整合(java config方式)
  10. 【Docker】制作一个支持SSH终端登录的镜像