hive sql select语句总结

Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需要的内容，这套SQL 简称Hive SQL，使不熟悉mapreduce 的用户很方便的利用SQL 语言查询，汇总，分析数据。而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析。

它与关系型数据库的SQL 略有不同，但支持了绝大多数的语句如DDL、DML 以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。

HIVE的特点：可伸缩（在Hadoop的集群上动态的添加设备），可扩展，容错，输入格式的松散耦合。

基本的Select 操作:

1. SELECT [ALL | DISTINCT] select_expr, select_expr, ...

2. FROM table_reference

3. [WHERE where_condition]

4. [GROUP BY col_list [HAVING condition]]

5. [ CLUSTER BY col_list

6. | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]

7. ]

8. [LIMIT number]

使用ALL和DISTINCT选项区分对重复记录的处理。默认是ALL，表示查询所有记录。DISTINCT表示去掉重复的记录。

Where 条件，类似我们传统SQL的where 条件，目前支持 AND,OR ,0.9版本支持between
IN, NOT IN
不支持EXIST ,NOT EXIST
ORDER BY与SORT BY的不同：ORDER BY 全局排序，只有一个Reduce任务；SORT BY 只在本机做排序
Limit：Limit 可以限制查询的记录数

注：SELECT 语句可以使用正则表达式做列选择

从SQL到HiveQL应转变的习惯

1、Hive不支持等值连接

SQL中对两表内联可以写成：

select * from dual a,dual b where a.key = b.key;

Hive中应为

select * from dual a join dual b on a.key = b.key;

而不是传统的格式：

SELECT t1.a1 as c1, t2.b1 as c2FROM t1, t2

WHERE t1.a2 = t2.b2

2、分号字符

分号是SQL语句结束标记，在HiveQL中也是，但是在HiveQL中，对分号的识别没有那么智慧，例如：

select concat(key,concat(';',key)) from dual;

但HiveQL在解析语句时提示：

FAILED: Parse Error: line 0:-1 mismatched input '<EOF>' expecting ) in function specification

解决的办法是，使用分号的八进制的ASCII码进行转义，那么上述语句应写成：

select concat(key,concat('\073',key)) from dual;

3、IS [NOT] NULL

SQL中null代表空值, 值得警惕的是, 在HiveQL中String类型的字段若是空(empty)字符串, 即长度为0, 那么对它进行IS NULL的判断结果是False.

4、Hive不支持将数据插入现有的表或分区中，仅支持覆盖重写整个表，示例如下：

INSERT OVERWRITE TABLE t1

SELECT * FROM t2;

5、Hive 的嵌套查询再必须给表起别名

如：select a.column

from (select *

from 表1

where dt = 20180528

) a

group by a.dt limit 100

6、当有两个分区时，在使用where语句查询的时候，必须将两个分区都写出来，如：

若表的分区有两个dt日期和hr小时，我们想选择20180608这一个分区的数据，则选择条件为where dt = 20180608 and hr>=0

hive sql select语句总结

猜你喜欢