[Hive_add_9] Hive 的存储格式


0. 说明

  Hive 的存储格式 | textfile | sequencefile | rcfile | orc | parquet |


1. Hive的存储格式

  1.1 textfile

  行式存储 

  1.2 sequencefile

  二进制的k-v对,行式存储

  配置块压缩

  SET hive.exec.compress.output=true;
  
SET io.seqfile.compression.type=BLOCK;


  1.3 rcfile

  列式存储

  先将数据进行横切(4M),成为行组,行组内又纵向切割分为多个字段

  1.4 orc

  列式存储

  比 rc 文件更大的块(256M),优化磁盘的线性读取,通过指定的编码器确定数据类型并优化压缩
  还存储了基本统计数据,比如 min,max,sum,count。。。

  1.5 parquet

  列式存储

  适用范围更广(在 Hadoop 生态系统中)
  适用于嵌套文件格式


2. 测试 

  使用 duowan 数据

  设置 Hive自动使用本地模式

SET hive.exec.mode.local.auto=true;

  输入文件大小低于此值会进入本地模式

SET hive.exec.mode.local.auto.inputbytes.max=500000000;

  输入文件个数低于此值会进入本地模式

SET hive.exec.mode.local.auto.input.files.max=5;

  设置seqFile使用块压缩

SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;

猜你喜欢

转载自www.cnblogs.com/share23/p/10260168.html