3、hive存储格式

行式存储

textFile

SequenceFile

列式存储

优点:1、一列数据一般是同质的,利于压缩数据,节省空间

           2、扫描时只读其中部分列,较少io

rcFile

每4m行数据进行切分成一组,再在每个行组内按照列进行存储

orc

每个块是256m,优化磁盘线性读取,通过指定编码器确定数据类型并优化压缩

parquet

大数据生态中通用存储格式,使用范围广,适用于嵌套文件格式

猜你喜欢

转载自www.cnblogs.com/lybpy/p/9971988.html