【pyspark】一 dataframe 读写parquet、json、csv等文件 - 代码天地

【pyspark】一 dataframe 读写parquet、json、csv等文件

其他 2019-05-10 11:40:58 阅读次数: 0

版权声明：转载请标明出处。 https://blog.csdn.net/u010720408/article/details/89190949

pyspark 读写文件

环境：zeppelin中的spark 2.1 的notebook提交的代码

pyspark 读 json

dataframe = spark.read.format(“json”).load("/tmp/testhdfsfile") #路径是hdfs上的

注意json文件中，一条记录是一条json，不能换行，格式如下：
{“row”:“1”,“field1”:“value1”} {“row”:“1”,“field2”:“value2”}
读取csv 等其他文件一样，但是csv有注意带不带header（就是列名信息），分隔符的注意事项；

pyspark 读parquet

dataframe=spark.read.parquet("/temp/testhdfsfile.parquet").select([‘field1’,‘field2’,‘field3’,‘field’])
注意：可以读一个parquet文件，也可以读多个parquet文件，select可以用于节约载入内存消耗，也可以让后续dataframe.unionAll()执行减少问题(字段名与个数都要相同)

pyspark 写文件到hdfs （一般都存为parquet读写都比json、csv快，还节约约75%存储空间）

dataframe.write.format(“parquet”).mode(“overwrite”).save(/temp/temphdfs.parquet)

猜你喜欢

转载自blog.csdn.net/u010720408/article/details/89190949

【pyspark】一 dataframe 读写parquet、json、csv等文件

pyspark系列--pyspark读写dataframe

pyspark系列--读写dataframe

pyspark读取csv文件创建DataFrame

pyspark -- DataFrame

PySpark DataFrame

pyspark 读取csv 到dataframe 参数

pyspark中dataframe读写数据库

pyspark 读取csv文件创建DataFrame的两种方法

pyspark系列--dataframe基础

PySpark的DataFrame处理方法

PySpark中RDD与DataFrame

pyspark DataFrame进行ETL

pyspark dataframe 常用操作

pyspark dataframe 操作

pyspark.sql.DataFrame

pyspark中的dataframe应用

pyspark：RDD和DataFrame

Pyspark DataFrame基础

pySpark创建空DataFrame

Pandas 与 PySpark DataFrame 示例

（2）pyspark建立RDD以及读取文件成dataframe

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

PySpark DataFrame创建透视表

pyspark常用dataframe处理方法

pyspark dataframe api速览

PySpark Dataframe 添加新列

pySpark | pySpark.Dataframe使用的坑与经历

pandas chunksize读取大文件csv；dataframe 转json

【PySpark学习笔记二】DataFrame用法

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)