【Hive总结】5 分区表

一、简介

  • 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。
  • Hive分区分为静态分区和动态分区

二、具体实现

1. 建表语句

create table test_partition (
id string, 
name string
)
partitioned by (year int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

2. 插入语句

静态分区和动态分区的插入数据的语句是不一样的,所以分开

2.1 静态分区

静态分区是在语句中指定分区字段为某个固定值,多次重复插入数据是为了看看数据如何在hdfs上存储的。

2.1.1 insert into

insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('002','李四');

2.1.2 load data

data.txt

002,李四
003,王五
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2017);

2.1.3 查询结果

2.1.4 HDFS存储方式

按照year分区,每个year就是一个文件夹

分区2018的路径为

/apps/hive/warehouse/dkl.db/test_partition/year=2018
  • /apps/hive/warehouse 为hive的仓库路径
  • dkl.db dkl为数据库名称
  • test_partition为表名
  • year为分区字段名

2.2 动态分区

2.2.1 insert into

insert into table test_partition partition(year) values ('001','张三',2016); 

动态分区默认不开启,执行上面的语句会报错:

开启

set hive.exec.dynamic.partition.mode=nonstrict;

然后再执行就可以了

【注意】上面的命令是临时生效,退出hive重新进hive需要重新执行上面的命令,才能动态分区

2.2.2 load data

不能使用load data进行动态分区插入

hive> load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year);
FAILED: NullPointerException null

可以使用另一种方法解决

(1)首先创建没有分区的表

create table test (
id string, 
name string,
year int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

(2)先将数据load进test表

load data local inpath '/root/dkl/data/data.txt' into table test;

(3)然后从表test,动态分区插入test_partition中

insert into table test_partition partition(year)  select * from test;

如果后面select具体字段的话,需要保证顺序一致,把分区字段放在最后。

insert into table test_partition partition(year)  select id,name,year from test;


3. 查看分区信息

hive> show  partitions test_partition;
OK
year=2017
year=2018
Time taken: 0.719 seconds, Fetched: 2 row(s)

4. 添加新分区

alter table test_partition add  partition (year=2012);

这样就会新建对应的hdfs路径下一个year=2012的文件夹

当然也可以指定localtion,这样就不会在默认的路径下建立文件夹了

alter table test_partition add  partition (year=2010) location '/tmp/dkl';

这样如果/tmp/dkl文件夹不存在的话就会新建文件夹,如果存在就会把该文件夹下的所有的文件加载到Hive表

5. 多个分区字段

5.1 建表

create table test_partition2 (
id string, 
name string
)
partitioned by (year int,month int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

5.2 HDFS存储格式

看一下多个分区的的表如何在HDFS上存储的,用静态分区的形式插入一条记录:

insert into table test_partition2 partition(year=2018,month=12) values ('001','张三');
/apps/hive/warehouse/dkl.db/test_partition2/year=2018/month=12

6. 删除分区

只能删除某个分区,如删除分区2018,而不能删除整个分区year字段。

6.1 单分区表

alter table test_partition drop partition(year=2018);

6.2 多分区表

6.2.1 删除year=2018,month=12

alter table test_partition2 drop partition(year=2018,month=12);

6.2.2 删除year=2018

alter table test_partition2 drop partition(year=2018);

6.2.3 删除month=10

alter table test_partition2 drop partition(month=10);

所有月份等于10的分区都会删除,无论year=2018,还是year=2017...

猜你喜欢

转载自blog.csdn.net/FullStackDeveloper0/article/details/89444957