Spark使用parquet文件存储格式

版权声明:All right reserved https://blog.csdn.net/a308601801/article/details/86620068

1)如果说 HDFS 是大数据时代分布式文件系统首选标准,那么 parquet 则是整个大数据时代文件存储格式实时首选标准。

2)速度更快:从使用 spark sql 操作普通文件 CSV 和 parquet 文件速度对比上看,绝大多数情况会比使用 csv 等普通文件速度提升10倍左右,在一些普通文件系统无法在 spark上成功运行的情况下,使用 parquet 很多时候可以成功运行。

3)parquet 的压缩技术非常稳定出色,在 spark sql 中对压缩技术的处理可能无法正常的完成工作(例如会导致 lost task,lost executor)但是此时如果使用 parquet 就可以正常的完成。

4)极大的减少磁盘 I/O,通常情况下能够减少75%的存储空间,由此可以极大的减少 spark sql 处理数据的时候的数据输入内容,尤其是在 spark1.6x 之后版本的下推过滤器在一些情况下可以极大的减少磁盘的 I/O 和内存的占用(下推过滤器)。

5)从 spark 1.6x 开始的 parquet 方式极大的提升了扫描的吞吐量,极大提高了数据的查找速度 spark1.6 和 spark1.5x 相比而言,提升了大约1倍的速度,在 spark1.6X 中,操作 parquet 的时候 cpu 也进行了极大的优化,有效的降低了cpu 消耗。

6)采用 parquet 可以极大的优化 spark 的调度和执行。我们测试 spark 如果用 parquet 可以有效的减少 stage 的执行消耗,同时可以优化执行路径。

猜你喜欢

转载自blog.csdn.net/a308601801/article/details/86620068