spark 读取parquet - 代码天地

spark 读取parquet

编程语言 2018-06-23 19:29:10 阅读次数: 2

列式存储布局（比如 Parquet）可以加速查询，因为它只检查所有需要的列并对它们的值执行计算，因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项，因此可以显著减少磁盘上的存储。

如果您在 HDFS 上拥有基于文本的数据文件或表，而且正在使用 Spark SQL 对它们执行查询，那么强烈推荐将文本数据文件转换为 Parquet 数据文件，以实现性能和存储收益。当然，转换需要时间，但查询性能的提升在某些情况下可能达到 30 倍或更高，存储的节省可高达 75%！

val userDF = spark.read.parquet("file:///usr/local/Cellar/spark-2.3.0/examples/src/main/resources/users.parquet")

可以直接read一个parquet文件，就转成了dataframe。因为parquet文件里有比较丰富的信息，不像普通的文件。所以推荐是把其他文件的格式，清洗后转换成parquet数据格式。

1.把dataframe 转成 parquet 文件

val jsonPeopleDF = spark.read.json("/usr/local/Cellar/spark-2.3.0/examples/src/main/resources/people.json")
 jsonPeopleDF.write.parquet("/Users/walle/Documents/D3/d1.parquet")
val d1DF = spark.read.parquet("file:///Users/walle/Documents/D3/d1.parquet")
d1DF.show

http://www.waitingfy.com/archives/4334

猜你喜欢

转载自blog.csdn.net/fox64194167/article/details/80777664

spark 读取parquet

spark-shell读取parquet文件

Spark读取Parquet格式的数据为Dataframe

spark-sql读取不到parquet格式的hive表

Spark读取parquet文件的切分逻辑

spark 读写 parquet

spark 读取的parquet文件schema改变了如何处理

Spark parquet merge metadata问题

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

parquet文件读取原理

pandas读取parquet报错

spark sql parquet数据源（推荐）

Spark使用parquet文件存储格式

Spark源码编译支持Parquet存储格式

Spark操作外部数据源--parquet

Spark SQL（三）：Parquet数据源

Spark Filter算子在Parquet文件上的下推

Spark - 一文搞懂 parquet

Spark SQL数据源：Parquet文件

【Spark九十二】Spark SQL操作Parquet格式的数据

Hadoop Parquet File 文件的读取

spark读取hbase数据

Spark Streaming 读取RabbitMQ

Spark 读取excel csv

Spark数据读取

spark读取es数据

spark 读取 ftp

spark读取sequenceFile文件

spark 数据写入与读取

Spark 读取 HBase 数据

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)