九十一、Spark-SparkSQL(多数据源处理) - 代码天地

九十一、Spark-SparkSQL(多数据源处理)

业界资讯 2022-04-07 19:45:26 阅读次数: 0

读取JSON文件，以JSON，CSV，jdbc格式写出

数据展示

代码

package org.example.SQL

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

import java.util.Properties

object sql_DataSource { //支持外部数据源
  //支持的文件数据格式:text/json/csv/parquet/orc...
  def main(args: Array[String]): Unit = {
    //不打印日志
    Logger.getLogger("org").setLevel(Level.ERROR)
    val spark: SparkSession = SparkSession.builder().appName("test2")
      .master("local[*]").getOrCreate()
    val sc = spark.sparkContext

    val df1: DataFrame = spark.read.json("data/input/json")

    df1.printSchema()
    df1.show()
    df1.coalesce(1).write.mode(SaveMode.Overwrite).json("data/output/json")
    df1.coalesce(1).write.mode(SaveMode.Overwrite).csv("data/output/csv")
    val prop = new Properties()
    prop.setProperty("user", "root")
    prop.setProperty("password", "123456")
    df1.coalesce(1).write.mode(SaveMode.Overwrite).jdbc("jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8", "person", prop)
    //如果没有，表自动创建

    spark.stop()

  }
}

约束

root
 |-- age: long (nullable = true)
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)

数据打印

+---+---+--------+
|age| id|    name|
+---+---+--------+
| 20|  1|zhangsan|
| 29|  2|    lisi|
| 25|  3|  wangwu|
| 30|  4| zhaoliu|
| 35|  5|  tianqi|
| 40|  6|    kobe|
+---+---+--------+

结果文件输出

json

csv

jdbc

猜你喜欢

转载自blog.csdn.net/m0_54925305/article/details/124018945

九十一、Spark-SparkSQL(多数据源处理)

Spark 企业级实战：SparkSQL 多数据源整合

Spark SQL 快速入门系列(7) | SparkSQL如何实现与多数据源交互

SparkSQL数据源

SparkSQL 数据源

处理多数据源的问题思路

六、多数据源处理

Spark介绍及Spark多数据源分析

spark--Spark SQL多数据源交互-★★★

多数据源

Spark SQL操作多数据源

阿里云分析引擎Spark On 多数据源介绍

SparkSQL数据源操作

九十、Spark-SparkSQL(查询sql)

九十四、Spark-SparkSQL(整合Hive)

Spring boot + atomikos 多数据源处理及事物处理

SparkSQL如何实现多数据源交互？这篇博客或许能告诉你答案!

多数据源主子报表的处理（Jasper为例）

SSM多数据源配置事务回滚处理

JBoss4 多数据源配置，异常处理

轻松实现SpringBoot实现多数据源与事物处理

Spring多数据源多事务处理

springboot 多数据源

多数据源配置

spring多数据源

spring 多数据源

ssm多数据源

JPA多数据源

配置多数据源

多数据源的配置

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)