Hive官方使用手册——压缩数据存储格式

本文为自己翻译的译文,原文地址:https://cwiki.apache.org/confluence/display/Hive/CompressedStorage


压缩数据存储

在某些情况下,将压缩的数据保存在Hive表中比未压缩存储的性能更好;无论是在磁盘使用方面还是在查询性能方面。

您可以将压缩了Gzip或Bzip2的文本文件直接导入到存储为TextFile的表中。压缩会被自动检测,并且在查询执行期间,文件将在运行时被动态解压缩。例如:

CREATE TABLE raw (line STRING)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY  '\t'  LINES TERMINATED BY  '\n' ;
 
LOAD DATA LOCAL INPATH  '/tmp/weblogs/20090603-access.log.gz'  INTO TABLE raw;

表“raw”存储为文本文件,这是默认存储。但是,在这种情况下,Hadoop将不会将您的数据文件分割成chunks/blocks并采用多个map任务并行运行。 这可能会导致对集群的“map”能力的利用不足。

推荐的做法是将数据插入到另一个表中,该表存储为SequenceFile。一个SequenceFile可以被Hadoop分割并分布在map作业中,而GZIP文件则不能。例如:

CREATE TABLE raw (line STRING)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY  '\t'  LINES TERMINATED BY  '\n' ;
 
CREATE TABLE raw_sequence (line STRING)
    STORED AS SEQUENCEFILE;
 
LOAD DATA LOCAL INPATH  '/tmp/weblogs/20090603-access.log.gz'  INTO TABLE raw;
 
SET hive.exec.compress.output= true ;
SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below)
INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;

io.seqfile.compression.type的取值决定了压缩如何被执行。在进行压缩之前,记录可以分别压缩每个值同时块缓冲区存储会增加到1MB(默认值)。

LZO 压缩

在Hive中使用LZO,请查阅 LZO Compression获取更多信息。
.


猜你喜欢

转载自blog.csdn.net/maizi1045/article/details/79708132