Spark SQL 的数据加载与保存(load , save) - 代码天地

Spark SQL 的数据加载与保存(load , save)

其他 2019-03-04 10:51:19 阅读次数: 0

Spark SQL主要是操作DataFrame，DataFrame本身提供了save和load的操作.
Load：可以创建DataFrame;
Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。
SparkSQL的保存模式

 * SaveMode.ErrorIfExist ----->default 文件存在,保存失败,有异常
 * SaveMode.Append      ----->append   在现有的基础之上追加新的数据
 * SaveMode.Overwrite   ----->overwrite 重写覆盖现有目录
 * SaveMode.Ignore      ----->ignore    忽略当前的保存操作

在这里插入图片描述
具体设置的话，使用mode()方法进行设置

SparkConf conf = new SparkConf().setAppName("SaveMode").setMaster("local");
//JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sc= new SQLContext(sc);

//重新加载以前的处理结果（可选）
sc.load("hdfs://node01.sun.com:9000/sql/res1")
sc.load("hdfs://node01.sun.com:9000/sql/res2", "json")

//读取hdfs中json格式的数据
DataFrame df = sc.read().json("hdfs://node01.sun.com:9000/input/student.json"); 

//以JSON文件格式覆写HDFS上的JSON文件
import org.apache.spark.sql.SaveMode._
result.save("hdfs://node01.sun.com:9000/sql/res2", "json" , Overwrite)

//直接保存
result.save("hdfs://node01.sun.com:9000/sql/res1")
result.save("hdfs://node01.sun.com:9000/sql/res2", "json")

//加载数据 默认加载的数据格式为parquet
DateFrame df=sc.read().parquet("hdfs://node01.sun.com:9000/output/aaa");
//df.show();

//将数据追加写入到hdfs文件系统中
df.write().mode(SaveMode.Append).save("hdfs://node01.sun.com:9000/output/aaa");

猜你喜欢

转载自blog.csdn.net/Thomson617/article/details/84194458

Spark SQL 的数据加载与保存(load , save)

Spark-SQL之load和save操作

Spark sql :load和save操做--spark学习笔记之一

Spark SQL之数据源(Data Source)与保存模式(Save Modes)

Spark学习实例(Python)：保存数据Save Data

保存(save)和加载(load)RWeka的model

Spark SQL加载数据和保存数据通用方式

Spark的load和save函数以及jar包的解决

Save & Load

Docker save and load镜像保存

matlab——加载文件load（）；保存函数save（）。

如何保存和加载XGBoost模型（save model and load model）

Load, Modify, and Save an Image - 加载、修改和保存图像

spark sql 读取数据库并保存

大数据-Spark SQL

SQL Tran Save Point

spark snappy save text file

第61课：Spark SQL数据加载和保存内幕深度解密实战

Spark SQL笔记整理（三）：加载保存功能与Spark SQL函数

Spark -- Spark SQL 简介数据抽象

pytorch模型保存(save)与读取(load)

Spark SQL load hdfs数据报错解决方法

Spark 数据的加载和保存

SQL Server save transaction SQL Server save transaction

Spark SQL数据源

pytorch save load

docker save load

sparksql load/save

Matlab load and save 函数

networkx graph save and load

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)