HIVE 第六章查询二 - 代码天地

HIVE 第六章查询二

企业开发 2018-05-12 21:13:15 阅读次数: 0

不同类型比较

不同类型的数字float double做比较，要注意0.2float大于0.2double

可以cat(0.2 as float)

order by and sort by

hive的order by是全部数据的排序，在一个reduce中处理排序，默认升序。效率比较低，通常跟limit一起用

可以用hive.mapred.mode=strict来强制，order后跟着limit

sort by是在每个reduce中，进行排序，

（是否在一个reduce中，由groupcomparator决定，如果没有就是key的compare，在hive中UDAF在控制mapper的key输出到reducer上，普通的compact是hash分布到key上，或是自定义compact的hash均匀分布ketama算法）

distribut by是让相同的key归到同一个reducer中，这样sort可以进行reducer中的排序

（注意 sort需要放在distribute前边）

cluster

cluster by是一种distribute和sort的简写，让按照clauses中语句分组，并且按照其他字段排序

cast函数

cast类型转换函数，当string不符合条件，则为unknown data为null

可以嵌套cast（cast（cast（binary as string）as double））

将float转换为int 可以用round floor

取样查询 sample

rand随机

select * from numbers tablesample(bucket 3 out of 10 on rand()) s;

column随机：以一个column，这样会在多个线程里跑multiple runs

select * from numbers tablesample(bucket 3 out of 10 on number) s;

block随机: 另一个取样函数(block sampling 当表小于block size128mb，则全部rows返回)

有个hive.sample.seednumber来控制seed information for block based

select * from numbersflat tablesample(0.1 percent) s;

使用number做sample,用以下语句，让sample按照sample存储，可以只访问hash file中需要的bucket

create table numbers_bucketed(number int) clustered by (number) into 3 buckets

set hive.enforce.bucketing = true;

union

select * from table1

union all

select * from table2

from(

from src select src.key , src.value where src.key < 100

union all

from src select src.* where src.key >100

) unioninput

insert overwrite directory '/tmp/union.out' select unioninput.*

猜你喜欢

转载自blackproof.iteye.com/blog/1797948

HIVE 第六章查询二

HIVE 第六章视图

第六章 MySQL 查询

第六章《MySQL查询》

第六章复合查询

第六章查询性能优化

第六章：Oracle的多表查询

第六章：数据查询与管理：

第六章-查询性能优化

第六章循环结构(二)

第六章循环结构（二）

c++ 第六章第二题

c++ primer 笔记第六章（二）

操作系统——第六章笔记（二）

第六章：JavaScript（第二话）

第六章输入输出系统（二）

第六章 Flask数据库(二)

Java基础第六章(循环结构二)

第六章（二）—信息收集（DIG）

Linux——（第六章）常用指令（二）

Hive 从 0 到 1 学习 —— 第六章 Hive DML 语句定义

第六章函数与宏定义实验报告二第六章函数与宏定义实验报告二

高性能mysql 第六章查询性能优化总结（上）查询的执行过程

【高性能MySQL】第六章查询性能优化查询优化器局限

【高性能MySQL】第六章查询性能优化查询优化

Oracle数据库-第六章：子查询(嵌套查询)

并发系列64章(并行编程二)第六章

【高性能MySQL】第六章查询性能优化

快速学习Spring Data JPA -- 第六章JPA多条件查询

【数据库视频】第六章数据查询和管理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)