Hive官方使用手册——压缩数据存储格式

压缩数据存储

在某些情况下，将压缩的数据保存在Hive表中比未压缩存储的性能更好;无论是在磁盘使用方面还是在查询性能方面。

您可以将压缩了Gzip或Bzip2的文本文件直接导入到存储为TextFile的表中。压缩会被自动检测，并且在查询执行期间，文件将在运行时被动态解压缩。例如:

 
             CREATE TABLE raw (line STRING) 
            
             ROW FORMAT DELIMITED FIELDS TERMINATED BY  
             '\t'  
             LINES TERMINATED BY  
             '\n' 
             ; 
            
             LOAD DATA LOCAL INPATH  
             '/tmp/weblogs/20090603-access.log.gz'  
             INTO TABLE raw;

表“raw”存储为文本文件，这是默认存储。但是，在这种情况下，Hadoop将不会将您的数据文件分割成chunks/blocks并采用多个map任务并行运行。这可能会导致对集群的“map”能力的利用不足。

推荐的做法是将数据插入到另一个表中，该表存储为SequenceFile。一个SequenceFile可以被Hadoop分割并分布在map作业中，而GZIP文件则不能。例如:

 
             CREATE TABLE raw (line STRING) 
            
             ROW FORMAT DELIMITED FIELDS TERMINATED BY  
             '\t'  
             LINES TERMINATED BY  
             '\n' 
             ; 
            
             CREATE TABLE raw_sequence (line STRING) 
            
             STORED AS SEQUENCEFILE; 
            
             LOAD DATA LOCAL INPATH  
             '/tmp/weblogs/20090603-access.log.gz'  
             INTO TABLE raw; 
            
             SET hive.exec.compress.output= 
             true 
             ; 
            
             SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below) 
            
             INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;

io.seqfile.compression.type的取值决定了压缩如何被执行。在进行压缩之前，记录可以分别压缩每个值同时块缓冲区存储会增加到1MB(默认值)。

LZO 压缩

在Hive中使用LZO，请查阅 LZO Compression获取更多信息。
.

Hive官方使用手册——压缩数据存储格式

Hive官方使用手册——压缩数据存储格式

压缩数据存储

LZO 压缩

猜你喜欢