spark -外部数据源 - 代码天地

spark -外部数据源

企业开发 2018-05-09 12:29:11 阅读次数: 3

1.在Spark1.2中提供了External DataSource API，开发者可以根据接口来实现自己的外部数据源，如avro, csv, json, parquet等等。

（1）spark自带的外部数据源

（2）其他开发者贡献的 https://spark-packages.org/

以avro为例，点击homepage，跳转到github网址：https://github.com/databricks/spark-avro，github页面详细介绍了用法

本地shell测试

2.spark 外部数据源 Api 练习

package df

import org.apache.spark.sql.SparkSession

object ExternalSource {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("demo").master("local").getOrCreate()

    //1.读取json
    val jsonDF = spark.read.format("json").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/employees.json")
    jsonDF.printSchema()

    //2.读取parquet
    val parquetDF = spark.read.format("parquet").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/users.parquet")
    parquetDF.printSchema()

    //3.读取scv
    val csvDF = spark.read.format("csv").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/people.csv")
    csvDF.printSchema()
  }
}

猜你喜欢

转载自coderlxl201209164551.iteye.com/blog/2415886

spark -外部数据源

Spark SQL之外部数据源

Spark操作外部数据源--MySQL

Spark操作外部数据源--parquet

Spark SQL操作外部数据源

Spark学习（陆）- Spark操作外部数据源

Spark 系列（十）—— Spark SQL 外部数据源

Spark利用hive与MySQL外部数据源做join

Spark SQL 笔记(9)—— 外部数据源(1) parquet

Spark SQL External DataSource外部数据源操作流程

Spark SQL External DataSource外部数据源

Spark SQL自定义外部数据源

Spark 数据源

spark数据源

Spark SQL数据源

Spark SQL外部数据源综合使用(Hive和MySQL进行Join)

Spark读取HBase数据源

spark sql parquet数据源（推荐）

spark sql csv数据源

spark sql json数据源

Spark SQL（三）：Parquet数据源

Spark内置图像数据源初探

4. Spark SQL数据源

spark sql数据源--hive

Spark SQL之数据源

多样 | spark数据源特点

Spark 高级数据源

spark streaming运行kafka数据源

flume-spark数据源

Spark SQL数据源：Parquet文件

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)