【Hive】Hive 中四个BY对比：Order By,Sort By ,Distribute By,Cluster By [Hive面试常考] - 代码天地

【Hive】Hive 中四个BY对比：Order By,Sort By ,Distribute By,Cluster By [Hive面试常考]

其他 2021-04-04 16:42:12 阅读次数: 0

Hive 中四个BY比较

一、Order By

Order By：全局排序。只有一个 Reducer，无论将reducer设置为几，实际都只有一个。

效率较低。
有ASC（ascend）: 升序（默认） DESC（descend）: 降序两种排序方式。
ORDER BY 子句在SELECT 语句的结尾
例： select * from emp order by sal desc;

二、Sort By

Sort By：分区排序，即每个 Reduce 内部排序。对于大规模的数据集 order by 的效率非常低。在很多情况下，并不需要全局排序，此时可以使用 sort by。

Sort by 为每个 reducer 产生一个排序文件。每个 Reducer 内部进行排序，对全局结果集来说不是排序。

单独使用sort by时随机划分数据所在区，往往和distribute by联用。

例：
1）设置 reduce 个数
set mapreduce.job.reduces=3;
2）查看设置 reduce 个数
set mapreduce.job.reduces;
3）根据部门编号降序查看员工信息
select * from emp sort by deptno desc;

三、 Distribute By

Distribute By：分区操作。在有些情况下，为了进行后续的聚集操作，我们需要控制某个特定行应该到哪个 reducer。distribute by 类似 MR 中 partition（自定义分区），进行分区，结合 sort by 使用。

例：先按照部门编号分区，再按照员工编号降序排序。
set mapreduce.job.reduces=3;
select * from emp distribute by deptno sort by empno desc;

注意：
➢ distribute by 的分区规则是根据分区字段的 hash 码与 reduce 的个数进行模除后，余数相同的分到一个区。
➢ Hive 要求 DISTRIBUTE BY 语句要写在 SORT BY 语句之前。

四、 Cluster By

当 distribute by 和 sorts by 字段相同时，可以使用 cluster by 方式。cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。

注意：排序只能是升序排序，不能指定排序规则为 ASC 或者 DESC。

例：
select * from emp distribute by deptno sort by deptno;
可写作：
select * from emp cluster by deptno;

猜你喜欢

转载自blog.csdn.net/m0_46568930/article/details/113738659

【Hive】Hive 中四个BY对比：Order By,Sort By ,Distribute By,Cluster By [Hive面试常考]

hive Sort By/Order By/Cluster By/Distribute By

Hive中order by、sort by、distribute by和cluster by

Hive中order by、sort by、distribute by、cluster by的区别

Hive中order by sort by distribute by cluster by用法

hive中 order by ,distribute by ,cluster by ,sort by 区别

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中的order by、sort by、distribute by和cluster by

Hive中order by，sort by，distribute by，cluster by的区别

hive中的order by、sort by、distribute by、cluster by排序

hive中cluster by，order by，sort by，distribute by的区别

hive中order by ，sort by ，distribute by 和 cluster by

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive的sort by, order by, distribute by, cluster by区别？

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive之Order,Sort,Cluster and Distribute By

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive- order by、sort by 、distribute by、cluster by

hive的 group 、distribute 、sort 、cluster、order 区别

Hive学习：order by，sort by，distribute by，cluster by的区别

Hive中 Oder by 、sort by、distribute by 和 cluster by

Hive_Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

hive四种排序order by，sort by，distribute by，cluster by的区别

hive中order by,sort by, distribute by, cluster by作用以及用法

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

hive中order by,sort by,distribute by,cluster by作用和用法

hive中order by、distribute by、sort by和cluster by的区别和联系

今日推荐

周排行

Grayscale的报告显示，机构投资者接受比特币

任意角度的场景文本检测论文简单总结

努力学习的意义

蒟蒻 Wendigo 表情包

Ubuntu 14.04 Install Sublime Text 3

守卫

python3中request.urlopen()和requests.get()方法的区别

花点时间顺顺Git（下）

docker安装ngnix进行挂载

spring boot 2 统一异常处理

每日归档

更多

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)