HIVE-表操作基础知识

上一份工作对数据的时效性要求较高，且公司有较为完善的数据平台，所以hive没怎么写过，现在的新工作需要大量的用底层数据(仓库未搭建)，物流行业的底层数据质量相对较差，需要做大量清洗工作，又重新学习了一下hive，大致的总结了一下。

一、HIVE建表语句

--中括号里面的都可以省略
CREATE [EXTERNAL] table [IF NOT EXISTS] table name
[(col_name data_type [COMMENT col_comment],..]
[COMMENT table_name]
[PARTITION BY (col_name data_type [COMMENT col_comment],..]
[CLUSTERED BY (col1,col2)
[SORTED BY (col_name [ASC|DESC],,,)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[FIELDS TERMINATED BY '']
[STORED as file format]
[LOCATION hdfs_path]

说明：
1、CREATE table创建一个指定名字的表，如果相同名字的表已经存在，则抛出异常，用户可以用IF NOT EXIES来忽略这个异常
2、EXTERNAL关键字可以让用户建立一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)
HIVE创建内部表时，会将数据移动到数据仓库指向的路径，若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。
在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据
3、like允许用户复制现有的表结构，但是不复制结构
CREATE [EXTERNAL] table [IF NOT EXISTS] [db_name.]table name like existing_table;
4、
ROW FORMAT delimited 这里采用内置分隔符
[fields terminated by char] 字段间用什么分隔
[collection items terminated by '-'] 集合采用什么分隔
[map keys terminated by ':']; 中间的键值对用什么分隔
[lines terminated by char] serde serde_name
[with serdeproperties
(property_name=property_value,property_name=property_value,....)]
hive建表时候默认的分隔符是'\001',如果load时候文件分隔符不是'\001'，程序不会报错，返回的都是null
serde 是Seralize的简称，目的是用于序列化和反序列化
hive读取文件机制，首先调用InputFormat(默认TextInputformat),返回一条条记录(默认是一行对应一条记录)，然后调用Serde(默认LazySimpleSerde)
的Deserializer，将一条记录切分为各个字段(默认'\001')

hive写文件机制，将Row写入文件时，主要调用OutputFormat\Serde的Seriliazer,顺序与读取相反

5、在hive SELECT查询中一般会扫描整个表的内容，会消耗很多时间做没必要的工作，有时候只需要扫描表中的一部分数据,所以会用到partition分区数据
分区表指的是在创建表时指定的partition的分区空间，一个表可以拥有一个或多个分区，每个分区以文件夹的形式单独存在表文件夹的目录中。表和列名不区分大小.分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在,但是该字段不存放实际的数据内容仅仅是分区的表示
---------------------------------------------------------------------------------------------------
如果数据在linux上，--load加载数据
load DATA local INPATH '/root/hivedata/students.txt' INTO TABLE STUDENT
这样加载数据

--hive支持的数据类型可以看官方wiki(https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types)
--支持Java的数据类型

---------------------------------------------------------------------------------------------------
二、建立分桶表
--首先要开启桶表功能
--分桶表创建之前，分桶表的字段必须是已经创建的字段
--桶表不能用load data命令，load data命令本身不执行MR程序,load本身相当于hive帮我们执行hadoop fs -put
set hive.enforce.bucketing = true;
set mapreduce.job.reduce=4; --分成几个桶
--固定结构
create [external] table [IF NOT EXISTS] table name
[COL_NAME DATA_TYPE [COMMENT col_comment]]
[comment table_comment]
[partitioned by(ds string,)] -分区
[clustered by (col1,col2) --哪一列分桶操作
[sorted by (col_name [ASC|DESC],,,)] INTO NUM_BUCKETS BUCKETS] --分成几个桶
row format.....

--例子
create table stu_bruck(sno int,sname string)
clustered by sno
into 4 buckets
row_format delimited
fields TERMINATED BY ',';

--分桶表插入数据，查询时执行了MR程序
insert overwrite table stu_buck
select * from table cluster by (sno)

--CLUSTERED BY INTO NUM_BUCKETS BUCKETS
对于每一个表或者分区，hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。hive也是针对某一列进行桶的组织。hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。
做成桶表主要有2个好处
(1)获得更高的查询效率。桶为表加上了额外的结构，hive在处理有些查询时能利用这个结。具体而言，连接两个在(包含连接列的)相同列上划分了桶的表，可以使用MAP端连接(Map-side join)高效的实现。比如join操作。对于join操作两个表有一个相同的列，如果对这两个表都进行了桶操作，那么将保存先沟通列值的桶就行join操作就可以大大减少join的数据量。
(2)使取样更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一部分数据上进行查询，会带来很多方便

--------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------
三、修改表：
1、增加分区：
ALTER TABLE table_name ADD PARTITION (dt='20180101') location
'/user/hadoop/warehouse/table_name/dt='20180101'';一次添加一个分区

ALTER TABLE table_name ADD PARTITION (ds='20180101',country='US') location
'/part/to/us/part080101'PARTITION(ds='20180101',country=US') location
'/part/to/us/part080102'; 一次添加多个分区

2、删除分区
ALTER TABLE table_name DROP IF EXISTS PARTITION (ds='20180101');
ALTER TABLE table_name DROP IF EXISTS PARTITION (ds='20180101',country='US');

3、修改分区
ALTER TABLE table_name PARTITION (dt='20180101') RENAME TO PARTITION (dt='20180102');

4、添加列
ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name STRING);
注：ADD代表新增一个字段，新增字段位置在所有列后面(分区前)
replace则是表示替换表中所有字段

5、修改列
table_name(a int,b int,c int);

ALTER TABLE table_name CHANGE a a1 int; --a改成a1

ALTER TABLE table_name CHANGE a a1 string AFTER b; --a改成a1,b列后面

ALTER TABLE table_name CHANGE a a1 int FIRST; --修改后放在第一列

6、表重命名
ALTER TABLE table_name RENAME TO new_table_name

-----------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------
四、显示命令
show tables;
显示当前数据库的所有表

show databases|schemeas;
显示表分区信息，不是分区表执行报错

show functions;
显示当前版本hive支持的所有方法

desc extended table_name;
查看表信息

desc formatted table_name;
查看表信息(格式化美观)

describe database database_name;
查看数据库相关信息

五、DML操作
2.1 load
在将数据加载到表中时，hive不会进行任何转换，加载操作是将数据文件移动到与hive表对应的位置的纯复制/移动操作。
语法结构
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO
TABLE tablename [PARTITION (partcol1=val1,partcol2=val2.....)]

说明
1、filepath
相对路径：例如：project/datal
绝对路径：例如：/user/hive/project/datal
完整url,例如：hdfs://namenode:9000/user/hive/project/datal

六、insert语法
hive中主要结合select查询语句使用，将查询结果插入表中，例：
例： insert overwrite table test_table
select * from test cluster by (sno)
需要保证查询结果列的数目和需要插入数据表的列数目一致。
如果查询出来的数据类型和插入表格对应的列数据类型不一致，将会进行转换，但是不能保证转换一定成功，转换失败的数据将会为NULL

可以将一个表查询出来的结果插入到原表中，结果相当于自我复制了一份数据。

multi inserts多重插入，主要是从同一个表取不同数据插入不同表里
from source_table
insert overwrite table tablename1 [partition (partcol1=val1,partcol2=val2)]
select_statement1
inser overwrite table tablename2 [partition (partcol1=val1,partcol2=val2)]
select_statement2

Dynamic partition inserts 动态分区插入：
insert overwrite table table_name partition (partcol1[=val1],partcol2[=val2].......)
select_statement FROM from_statement
动态分区是通过位置来对应分区值的.原始表select出来的值和输出partition的值的关系仅仅是通过位置来确定的，和名字没有关系，名字可以不一样的

动态分区插入语法
set hive.exec.dynamic.partition=true; #是否开启动态分区功能，默认FALSE
set hive.exec.dynamic.partition.mode=nonstrict; #动态分区的模式，默认strict，表示必须至少指定一个分区为静态分区，nonstrict模式允许所有的分区字段都可以使用动态分区

七、导出表数据
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select ... from ...
multiple inserts:
FROM from_statement
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2].....
数据写入到文件系统时进行文本序列化，且每列用^A来区分，\n为换行符。

八、cluster by、sort by、distribute by
说明：
1、order by会对输入做全局排序，因此只有一个reducer,会导致当输入规模较大时，需要较长时间计算

2、sort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sortby就行排序，并且设置
mapred.reduce.tasks>1,则sort by只保证每个reducer的输出有序，不保证全局有序。

3、distribute by(字段)根据指定字段讲数据分到不同的reducer,分发算法是hash散列。

4、Cluster by(字段)除了具有distribute by的功能外，还会对该字段进行排序。

如果distribute和sort的字段是同一个时，此时，cluster by=distribute by+sort by
1、#指定开启分桶
set hive.enforce.bucketing=true;
set mapreduce.job.reduce=4;

select * from ods.base cluster by (id);--这样就会分为4桶

九、hive join
HIVE中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，还支持LEFT SEMI JOIN和CROSS JOIN,单这种join也可以用前面的代替。

HIVE支持等值连接，不支持非等值连接，因为非等值连接非常难转化到map/reduce任务，另外，hive支持2个以上表之间的join。

join时，每次map/reduce任务的逻辑
reducer会缓存join序列中除了最后一个表的所有表的记录，再通过最后一个将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中，应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)

left，right和full outer 关键字用于处理join中空记录的情况
join发生在where字句之前

left semi join
例子：a表只有id，name两个字段
select * from a left semi join b on a.id=b,id;
select a.id,a.name from a join b on a.id=b.id;

cross join

返回两个表的笛卡尔积结果，不需要指定关联键(注：数据量较大，慎用)

HIVE-表操作基础知识

猜你喜欢