Parquet格式 - 代码天地

Parquet格式

编程语言 2018-08-28 16:34:13 阅读次数: 0

Parquet格式

参考链接：

http://lvheyang.com/wp-content/uploads/2016/02/%E5%88%97%E5%BC%8F%E5%AD%98%E5%82%A8%E4%B8%8EParquet%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E5%88%86%E4%BA%AB-2.pdf

https://www.jianshu.com/p/b823c727fe46

https://blog.csdn.net/bhq2010/article/details/43318549

https://www.cnblogs.com/ulysses-you/p/7985240.html

1 Schema

Parquet 采用了一种嵌套的文件格式，简单理解为它的数据结构是树状层层嵌套的，类似于Json那种可以嵌套的格式。逻辑上，他的数据不是扁平的，有些字段可有可无。

2 数据转换

对于内存中的其他数据结构，存储时会通过特定的转换器转换为Parquet的存储对象。

3 group 分割

表被横向分割成多个行组，再存储为列式格式。

不同的字段是分开存储的，一个字段有一个column chunk，它包含了多个page，page是最小的压缩单元，也是最小的IO单元。

4 数据缓存

写入缓存时以groupsize为准。

groupsize是Mapreduce能够处理的最小单元。

读数据是最小可读单个page。

5 设置参数

Impala中可以设置文件的大小;

set parquet.file.sieze=1G(这是默认值)；

parquet参数：

#压缩格式

#parquet.compression=snappy;

#parquet.block.size=33554432（byte，内存中group的buffersize，不能大于hdfs的dfs.block.size）

#parquet.writer.max-paddin=2m

等同于row group 大小，paddin size是blocksize的最小值，cdh默认8M。

#parquet.page.size（默认为1m，设置大是，减少了读取的IO，但会影响压缩效率）

#parquet.enable.dictionary=true

#parquet.dictionary.page.size=1048576

默认为true，是否启用dictionary编码；默认大小与page.size相同，为1M。dictionary创建时会占用较多的内存。

猜你喜欢

转载自blog.csdn.net/qq_32555899/article/details/82113356

Parquet格式

Parquet列式存储格式

Parquet 列式存储格式

学习Parquet文件格式

Parquet列式存储格式笔记

Hive 导入 parquet 格式数据

列式存储格式之Parquet

Parquet文件结构笔记 Parquet文件结构笔记大数据：Parquet文件存储格式

Parquet

【Hive十四】Hive读写Parquet格式的数据

解压parquet格式文件到text

Parquet存储格式 - 论文翻译【转】

impala+hdfs+parquet格式文件

大数据：Parquet文件存储格式

深入分析Parquet列式存储格式

Parquet与ORC：高性能列式存储格式

Hive 导入 parquet 格式数据（未完，待续） Hive 导入 parquet 格式数据 Parquet 格式文件，查看Schema Hive 导入 parquet 格式数据

Parquet文件格式介绍和读写流程

Spark使用parquet文件存储格式

Spark源码编译支持Parquet存储格式

查询Parquet格式表异常问题

HIVE存储格式ORC、PARQUET对比

Spark读取Parquet格式的数据为Dataframe

sparksql读取parquet格式hive表的配置

Parquet高性能列式存储格式的介绍

spark sql parquet 格式异常修改Jar版本 parquet-hadoop-bundle-1.6.0

【Spark九十二】Spark SQL操作Parquet格式的数据

新一代列式存储格式Parquet

不同系统、不同存储格式（textfile， parquet）数据的传递

hive 查询结果转为parquet格式存入hdfs中

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)