Apache Parquet 是有效存储嵌套数据的列式存储格式
Hive中的ORC(Optimized Record Columnar)也是列式存储
Parquet
1 与语言无关的定义文件格式的Parquet规范
2 不同语言的规范实现,读写Parquet
模式规范
重复数+数据类型+字段名称
重复数:required/optional/repeated
数据类型
原子类型
boolean/int32/int64/int96/float/double/binary/fixed_len_byte_array
扫描二维码关注公众号,回复:
2047739 查看本文章
逻辑类型
UTF-8/ENUM/DECIMAL/DATE/LIST/MAP
使用group创建复杂类型
嵌套编码
使用Dremel编码,模式中的每个原子类型的字段都单独存储为一列,每个值都要通过使用两个整数对结构进行编码,definition level和repetition level
对任意列(包括嵌套列)的读取不需要涉及到其他列