首页
移动开发
物联网
服务端
编程语言
企业开发
数据库
业界资讯
其他
搜索
hive的 group 、distribute 、sort 、cluster、order 区别
其他
2020-04-08 23:02:47
阅读次数: 0
order by
hive 的语法大部分从mysql中继承过来一来节约学习成本,二是对习惯了mysql语法的更易于编程,order by 便是这样移植了过来,但放在大数据这种环境下,显得作用没有在mysql那样大了,因为处理数仓的数据量都是非常大的,如果使用order by 便是对所有数据做一次全排序,并且只开启一个reduce来排序。效率低下,消耗的资源的代价将是非常大的,所以它的适用场景是在数据量很小的情况下才适合使用,慎用。
这里跟传统的sql还有一点区别:如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit 来限制输出条数,原因是:所有的数据都会在同一个reducer端进行,数据量大的情况下可能不能出结果,那么在这样的严格模式下,必须指定输出的条数。
sort by
sort by 只对局部排序,不保证全局,在mapreduce中 reduce 区间内排序 ,如果是有多个reduce 就形成了区内有序,区间是无序的
distribute by
distribute by 按某个字段进行分组,并且把相同字段拉取到一个reduce上处理 ,一般是结合 sort by来使用 ,使用时候要把distribute by 放在前面 sort by 放在后面
cluster by
cluster by是distribute by 和 sort by 的结合体 使用cluster by 的列只能是降序的,不能设置为升序
点赞
1
收藏
分享
文章举报
路由已
发布了39 篇原创文章
·
获赞 13
·
访问量 2298
私信
关注
猜你喜欢
转载自
blog.csdn.net/qq_43205282/article/details/105017337
hive的 group 、distribute 、sort 、cluster、order 区别
Hive的sort by, order by, distribute by, cluster by区别?
Hive中order by、sort by、distribute by、cluster by的区别
hive中 order by ,distribute by ,cluster by ,sort by 区别
Hive中order by,sort by,distribute by,cluster by的区别
Hive的Order by、Sort by、Distribute by和Cluster by的区别
hive中cluster by,order by,sort by,distribute by的区别
Hive中的order by,sort by,distribute by,cluster by 的区别
Hive学习:order by,sort by,distribute by,cluster by的区别
hive中几个排序方式的区别 hive中Sort By,Order By,Cluster By,Distribute By,Group By的区别
Hive 的 HQL 语句:distribute by与group by,order by与sort by 的区别
hive Sort By/Order By/Cluster By/Distribute By
HIVE 中 order by, sort by, distribute by, cluster by的用法和区别
hive中order by、distribute by、sort by和cluster by的区别和联系
Hive中order by,sort by, distribute by, cluster by区别,用法详解
hive四种排序order by,sort by,distribute by,cluster by的区别
hive中order by ,sort by ,distribute by 和 cluster by的区别
hive中order by、sort by、distribute by、cluster by的区别详解
Hive中order by、sort by、distribute by和cluster by
【Hive】Order by、Sort by、Distribute by和Cluster by
谈谈hive的order by ,sort by ,distribute by 和 cluster by
Hive之Order,Sort,Cluster and Distribute By
Hive的排序(Order by,Sort by,Distribute by,Cluster by)
Hive中order by sort by distribute by cluster by用法
hive 中 order by ,sort by ,distribute by ,cluster by 详解
Hive中的order by、sort by、distribute by和cluster by
Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY
hive中的order by、sort by、distribute by、cluster by排序
hive- order by、sort by 、distribute by、cluster by
hive中order by ,sort by ,distribute by 和 cluster by
今日推荐
开源日报 | Chrome内置Gemini的意义不在于Gemini;中国AI追随之路的五大误区;ECharts创始人“下海”养鱼;谷歌I/O开发者大会什么都有,只是没有惊喜
微软回应中国区AI团队“打包赴美”传闻
基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个!
美国拟限制 AI 大模型出口中国和俄罗斯
苹果将与 OpenAI 达成协议,将 ChatGPT 应用于 iPhone
openKylin 社区生态委员会第六次会议圆满召开
阿里云正式发布通义千问 2.5
Python 3.13 发布首个 Beta:实验性自由线程模式和 JIT、改进交互式解释器
Stack Overflow 拿我的代码去训练 AI 大模型,还封了我的账号
Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作
《2024 年一季度互联网投融资运行情况》研究报告
报告:Django 仍然是 74% 开发者的首选
周排行
返回指定时间格式
fopen函数中的mode参数
Java 单例模式探讨
Flex remoteobject工作原理探讨
寻找mplayer的便捷安装方法
30天了解30种技术系列---(26)MySQL自动化运维工具Inception
关于Jboss/Tomcat/Jetty的JNDI定义123
程序减肥,strip,eu-strip 及其符号表
AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动
Json和Bean的互相转换
每日归档
更多
2024-05-15(24)
2024-05-14(0)
2024-05-13(18)
2024-05-12(0)
2024-05-11(38)
2024-05-10(38)
2024-05-09(35)
2024-05-08(42)
2024-05-07(14)
2024-05-06(40)