SparkSQL读写外部数据源--数据分区 - 代码天地

SparkSQL读写外部数据源--数据分区

其他 2019-09-08 23:27:50 阅读次数: 0

import com.twq.dataset.Utils._
import org.apache.spark.sql.{SaveMode, SparkSession}

object FilePartitionTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("FilePartitionTest")
      .getOrCreate()

    val sessions = spark.read.parquet(s"${BASE_PATH}/trackerSession")
    sessions.show()
    sessions.printSchema()

    sessions.createOrReplaceTempView("non_partition_table")
    spark.sql("select * from non_partition_table where day = 20170903").show()

    //对数据按照年月日进行分区
    sessions.write.mode(SaveMode.Overwrite).partitionBy("cookie").parquet(s"${BASE_PATH}/trackerSession_partition")

    val partitionDF = spark.read.parquet(s"${BASE_PATH}/trackerSession_partition")
    partitionDF.show()
    partitionDF.printSchema()

    //用sql查询某20170903这天的数据
    partitionDF.createOrReplaceTempView("partition_table")
    spark.sql("select * from partition_table where cookie='cookie1'").show()

    //取20170903这天的数据
    val day03DF = spark.read.parquet(s"${BASE_PATH}/trackerSession_partition/year=2017/month=201709/day=20170903")
    day03DF.show()
    day03DF.printSchema()

    //bucket只能用于hive表中
    //而且只用于parquet、json和orc文件格式的文件数据
    sessions.write
      .partitionBy("year")
      .bucketBy(24, "cookie")
      .saveAsTable("session")

    spark.stop()
  }
}

　　

猜你喜欢

转载自www.cnblogs.com/tesla-turing/p/11489088.html

SparkSQL读写外部数据源--数据分区

SparkSQL读写外部数据源-json文件的读写

SparkSQL读写外部数据源--csv文件的读写

SparkSQL读写外部数据源-jext文件和table数据源的读写

SparkSQL读写外部数据源-通过jdbc读写mysql数据库

SparkSQL（六）：外部数据源

SparkSql读取外部数据源

SparkSQL的多种数据源的读写

SparkSQL数据源

SparkSQL 数据源

入门大数据---SparkSQL外部数据源

【SparkSQL】转载解析xml格式外部数据源

sparkSQL---不同数据源的读写操作

SparkSQL数据源操作

SparkSQL读取HBase数据，通过自定义外部数据源

SparkSQL读取Cassandra数据源

第 4 章 SparkSQL数据源

【SparkSQL】转载选择 Parquet作为DF默认类型外部数据源的原因

spark -外部数据源

外部数据源读写，JDBC连其他数据库

SparkSQL：Parquet数据源之合并元数据

SparkSQL数据源之Hive数据库

Spark SQL之外部数据源

FTP使用外部数据源

Spark操作外部数据源--MySQL

Spark操作外部数据源--parquet

Spark SQL操作外部数据源

SparkSql-json数据源---解析嵌套Json

SparkSql自定义数据源之读取的实现

九十一、Spark-SparkSQL(多数据源处理)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)