转自:https://www.cnblogs.com/cc11001100/p/9043946.html

Hive中collect相关的函数有collect_list和collect_set。

它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。

做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录:

create table t_visit_video (
username string,
video_name string
) partitioned by (day string)
row format delimited fields terminated by ',';

在本地文件系统创建测试数据文件:

张三,大唐双龙传
李四,天下无贼
张三,神探狄仁杰
李四,霸王别姬
李四,霸王别姬
王五,机器人总动员
王五,放牛班的春天
王五,盗梦空间

将数据加载到Hive表:

load data local inpath '/root/hive/visit.data' into table t_visit_video partition (day='');

按用户分组,取出每个用户每天看过的所有视频的名字:

select username, collect_list(video_name) from t_visit_video group by username ;

但是上面的查询结果有点问题,因为霸王别姬实在太好看了,所以李四这家伙看了两遍,这直接就导致得到的观看过视频列表有重复的,所以应该增加去重,使用collect_set,其与collect_list的区别就是会去重:

select username, collect_set(video_name) from t_visit_video group by username;

李四的观看记录中霸王别姬只出现了一次,实现了去重效果。

突破group by限制

还可以利用collect来突破group by的限制,Hive中在group by查询的时候要求出现在select后面的列都必须是出现在group by后面的,即select列必须是作为分组依据的列,但是有的时候我们想根据A进行分组然后随便取出每个分组中的一个B,代入到这个实验中就是按照用户进行分组,然后随便拿出一个他看过的视频名称即可:

select username, collect_list(video_name)[] from t_visit_video group by username;

video_name不是分组列,依然能够取出这列中的数据。

最新文章

  1. Windows平台下和跨平台的相关公共库
  2. PDA无线数据采集器在仓库管理系统中的应用
  3. 一个App完成入门篇(二)-搭建主框架
  4. 7.PHP内核探索:Apache模块介绍
  5. [cocos2dx]怎样将Android手机游戏移植到电视?
  6. hdu4267 A Simple Problem with Integers
  7. 百度编辑器ueditor简单易用
  8.  paip.android环境搭建与开发事例
  9. D3--数据可视化实战总结
  10. ReflectASM-invoke,高效率java反射机制原理
  11. 关于虹软人脸识别SDK的接入
  12. 开发过程中遇到的问题1--------我们的mysql的查询语句时自己写的,没有用oracle的nextvalue函数。所以这里涉及到了并发的问题。
  13. s5-15 开放的最短路径优先_OSPF
  14. 记初学net-SNMP
  15. Java数组搜索和比较
  16. Python多线程获取返回值
  17. Python3实现机器学习经典算法(二)KNN实现简单OCR
  18. javascript(js)自动刷新页面的实现方法总结
  19. Jni中图片传递的3种方式(转)
  20. [精]Oracle APEX 5.0 入门教程(一) Form表单

热门文章

  1. 常见问题:计算机网络/运输层/TCP
  2. go gRPC介绍, demo
  3. c#窗体程序绘制简单心形
  4. win7下exe文件设置为开机启动
  5. python 内置函数input/eval(22)
  6. OS填空题练习
  7. 《ucore lab1 exercise2》实验报告
  8. [转帖]为微软效力15年的微软前员工解释Windows 10为什么问题这么多
  9. java积累的细节问题
  10. Excel逻辑运算函数