SparkSQL创建RDD：<5>读取parquet文件创建DataFrame【Java，Scala纯代码】 - 代码天地

SparkSQL创建RDD：<5>读取parquet文件创建DataFrame【Java，Scala纯代码】

其他 2018-08-08 00:44:25 阅读次数: 0

注意：

可以将DataFrame存储成parquet文件。保存成parquet文件的方式有两种

df.write().mode(SaveMode.Overwrite)format("parquet")
                                    .save("./sparksql/parquet");
df.write().mode(SaveMode.Overwrite).parquet("./sparksql/parquet");

SaveMode指定文件保存时的模式。

Overwrite：覆盖

Append：追加

ErrorIfExists：如果存在就报错

Ignore：如果存在就忽略

Java版代码：

SparkConf conf = new SparkConf();
conf.setMaster("local").setAppName("parquet");
JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
JavaRDD<String> jsonRDD = sc.textFile("sparksql/json");
DataFrame df = sqlContext.read().json(jsonRDD);
/**
 * 将DataFrame保存成parquet文件，SaveMode指定存储文件时的保存模式
 * 保存成parquet文件有以下两种方式：
 */
df.write().mode(SaveMode.Overwrite).format("parquet").save("./sparksql/parquet");
df.write().mode(SaveMode.Overwrite).parquet("./sparksql/parquet");
df.show();
/**
 * 加载parquet文件成DataFrame	
 * 加载parquet文件有以下两种方式：	
 */

DataFrame load = sqlContext.read().format("parquet").load("./sparksql/parquet");
load = sqlContext.read().parquet("./sparksql/parquet");
load.show();

sc.stop();

Scala版代码：

 val conf = new SparkConf()
 conf.setMaster("local").setAppName("parquet")
 val sc = new SparkContext(conf)
 val sqlContext = new SQLContext(sc)
 val jsonRDD = sc.textFile("sparksql/json")
 val df = sqlContext.read.json(jsonRDD)
 df.show()
  /**
  * 将DF保存为parquet文件
  */
df.write.mode(SaveMode.Overwrite).format("parquet").save("./sparksql/parquet")
 df.write.mode(SaveMode.Overwrite).parquet("./sparksql/parquet")
 /**
  * 读取parquet文件
  */
 var result = sqlContext.read.parquet("./sparksql/parquet")
 result = sqlContext.read.format("parquet").load("./sparksql/parquet")
 result.show()
 sc.stop()

鼓励一下我呗，谢谢你。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81428245

SparkSQL创建RDD：<5>读取parquet文件创建DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<1>读取json格式的文件创建DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<7>读取Hive中的数据加载成DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<2>通过创建json格式的RDD创建DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<4>动态创建Schema将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<6>读取JDBC中的数据创建DataFrame(MySql为例，两种方式)【Java，Scala纯代码】

SparkSQL创建RDD：<3>通过反射的方式将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

从RDD创建DataFrame（Sparksql）

SparkSQL创建RDD：创建DataFrame的方式，配置Spark on Hive【文字说明+关键代码】

scala中rdd与dataframe的各种创建方式

⑨SparkSQL-创建DataFrame

从rdd创建dataframe

SparkSql如何读取parquet文件数据

SparkSQL创建RDD：UDF & UDAF【文字说明+关键代码】

sparkSql 创建dataFrame几种方式

sparkSql 中的dataFram的使用通过json文件创建DataFrame

pyspark读取csv文件创建DataFrame

SparkSQL| RDD&DataFrame&DataSet

SparkSql中创建DataFrame的三种创建方式

pyspark 读取csv文件创建DataFrame的两种方法

小记--------sparksql和DataFrame的小小案例java、scala版本

sparksql读取parquet格式hive表的配置

利用JAVA、SCALA实现RDD和DataFrame转换

Java代码中使用不同的SparkContext创建RDD的方式

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

SparkSQL的反射机制和自定义创建DataFrame

Spark读取内存数据创建RDD

parquet文件读取原理

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

SparkSQL（五）RDD2DataFrame

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)