hive collect_list和collect_set区别 - 代码天地

hive collect_list和collect_set区别

其他 2018-11-19 09:51:00 阅读次数: 0

Hive中collect相关的函数有collect_list和collect_set。

它们都是将分组中的某列转为一个数组返回，不同的是collect_list不去重而collect_set去重。

做简单的实验加深理解，创建一张实验用表，存放用户每天点播视频的记录：

1

2

3

4

5

create table t_visit_video (

username string,

video_name string

) partitioned by (day string)

row format delimited fields terminated by ',';

在本地文件系统创建测试数据文件：

1

2

3

4

5

6

7

8

张三,大唐双龙传

李四,天下无贼

张三,神探狄仁杰

李四,霸王别姬

李四,霸王别姬

王五,机器人总动员

王五,放牛班的春天

王五,盗梦空间

将数据加载到Hive表：

1	`load` `data` `local` `inpath` `'/root/hive/visit.data'` `into` `table` `t_visit_video partition (day='20180516');`

按用户分组，取出每个用户每天看过的所有视频的名字：

1	`select` `username, collect_list(video_name)` `from` `t_visit_video` `group` `by` `username ;`

但是上面的查询结果有点问题，因为霸王别姬实在太好看了，所以李四这家伙看了两遍，这直接就导致得到的观看过视频列表有重复的，所以应该增加去重，使用collect_set，其与collect_list的区别就是会去重：

1	`select` `username, collect_set(video_name)` `from` `t_visit_video` `group` `by` `username;`

李四的观看记录中霸王别姬只出现了一次，实现了去重效果。

突破group by限制

还可以利用collect来突破group by的限制，Hive中在group by查询的时候要求出现在select后面的列都必须是出现在group by后面的，即select列必须是作为分组依据的列，但是有的时候我们想根据A进行分组然后随便取出每个分组中的一个B，代入到这个实验中就是按照用户进行分组，然后随便拿出一个他看过的视频名称即可：

1	`select` `username, collect_list(video_name)[0]` `from` `t_visit_video` `group` `by` `username;`

video_name不是分组列，依然能够取出这列中的数据。

猜你喜欢

转载自blog.csdn.net/AntKengElephant/article/details/83277885

hive collect_list和collect_set区别

Hive中collect相关的函数有collect_list和collect_set

hive：collect_list/collect_set（列转行）

hive学习笔记 - collect_list、collect_set

hive：函数：collect_list和collect_set （列转行）

hive 实现将多行记录合并成一行:concat_ws,collect_set,collect_list

hive collect_set函数

hive中对多行进行合并—collect_set&collect_list函数

hive 中concat_ws和collect_set 用法

Hive中的explode()函数和collect_set()函数

Hive中的explode()函数和collect_set()函数

Hive 的collect_set使用详解

SQL之concat()、collect_set()、collect_list()和concat_ws()用法

hive中的concat，concat_ws，collect_set用法

Hive中列转行函数collect_set详解

hive collect_set mysql group_concat

Hive函数collect_set、concat_ws、concat、if

Spark2 Dataset之collect_set与collect_list

collect_set、collect_list 、concat_ws （多行合并）

hive collect_set 结果顺序不一致

hive分层级取数（将多行记录合并为一条）：concat_ws ，collect_set

Hive-空字段赋值，时间类函数，分支函数，字符串拼接，COLLECT_SET()，EXPLODE()，窗口函数

Hive UDAF collect_map

再谈GenericUDAF（以collect_set源码分析）

spark concat_ws,collect_set

记录一下spark SQL里concat_ws和collect_set的作用

SQL里concat_ws()、collect_set()的使用

Hive collect、explode函数详解（包括concat、Lateral View）

关于Hive(一) Hive和安装Hive

hive on spark 和spark on hive

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)