定义

Spark SQL可以通过DataFream接口操作各种数据源。可以通过关系转换或者临时表来操作DataFrame。这里我们将介绍通用的数据源加载方法和数据保存方法。

通用加载/保存方法

Spark默认的数据源格式为Parquet格式，数据源格式问Parquet文件的时候，Spark读取数据的时候不需要指定具体的格式，如果想要修改默认的数据格式，就需要修改spark.sql.sources.default参数

 def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("DataFrameTest").master("local[2]").getOrCreate()
    //因为Parquet格式的文件时Spark加载数据的默认格式，所以不需要指定format格式
    val personDF: DataFrame = spark.read.load("hdfs://xxxxx:8020/testfile/person.parquet")
    personDF.show()
  }

如果我们输入的数据文件格式不是Parquet，那么我们就需要手动指定读取的数据源格式。数据源格式需要指定全名（org.apache.spark.sql.parquet）,如果手动指定的数据源格式为spark内置格式，只需要指定简称，如json、parquet、jdbc、text、orc、libsvm、csv。

 def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("DataFrameTest").master("local[2]").getOrCreate()

    //从本地读取json格式的数据，因为json不是spark默认的数据源格式，所以需要手动指定数据源格式为json
    val personDF: DataFrame = spark.read.format("json").load("C:\\Users\\39402\\Desktop\\person.json")
    
    //利用Dataframe的write和save方法将本地读取到的数据以parquet的格式写到HDFS上，
    personDF.write.format("parquet").save("hdfs://xxxxx:8020/testfile/person.parquet")
  }

除此之外我们也可以把SQL执行在数据源文件上，下边就是一个例子，它将SQL运行在文件上。

def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("DataFrameTest").master("local[2]").getOrCreate()
    
    //将SQL执行在数据源的文件上，一定要注意书写格式
 	spark.sql("select * from parquet.`hdfs://xxxxx:8020/testfile/person.parquet`").show()
  }

文件保存选项

当我们的SparkSQL处理完数据以后，需要向本地或者文件系统保存数据，我们可以利用SaveModel指定保存策略，，例如文件已经存在就抛异常、覆盖原数据等。
代码例子

def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("DataFrameTest").master("local[2]").getOrCreate()

    //从本地读取json格式的数据，因为json不是spark默认的数据源格式，所以需要手动指定数据源格式为json
    val personDF: DataFrame = spark.read.format("json").load("C:\\Users\\39402\\Desktop\\person.json")
   
    //指定SaveModel策略为如果文件已存在就抛异常
	personDF.write.mode(SaveMode.ErrorIfExists).save("hdfs://xxxx:8020/testfile/person.parquet")
  }

SaveModel保存策略表

Scala/Java	Meaning
SaveMode.ErrorIfExists (default)	如果数据已经存在，将DataFrame保存到数据源时，则预计会抛出异常。
SaveMode.Append	如果data / table已经存在，将DataFrame保存到数据源时，则DataFrame的内容将被添加到现有数据中。
SaveMode.Overwrite	覆盖模式意味着将DataFrame保存到数据源时，如果data / table已经存在，则现有数据将被DataFrame的内容覆盖。
SaveMode.Ignore	忽略模式意味着，当将DataFrame保存到数据源时，如果数据已经存在，保存操作将不会保存DataFrame的内容，也不会更改现有数据。这与CREATE TABLE IF NOT EXISTSSQL中的类似。

Parquet文件

Parquet是一种列式存储格式，可以很高效的存储具有嵌套的数据，目前是最流行的一种存储格式。SparkSQL默认的读写数据的格式就是Parquet，可想而知该格式是多么高效。在海量数据中，我们一般存储在分布式文件系统中，并且以分区的方式存储，也就是按照一定的规律拆分成小的文件。那么Parquet数据源就可以自动发现并解析分区信息。SparkSQL自动解析分区的参数为spark.sql.sources.partitionColumnTypeInference=true，默认是开启，想要关闭就设置成disabled

Hive数据库

Hive是Hadoop为了减缓编写MapReduce程序而存在的一种SQL引擎，它最终会被翻译成MapReduce程序。SparkSQL支持操作现有的Hive仓库。由于Hive有很多的依赖，这些依赖不会包含在Spark中，当在Spark没有在ClassPath中发现这些依赖，那么Spark就会自动加载它们，特别注意的是，这些依赖一定要在所有节点上出现，因为它们需要访问Hive的序列化和反序列库，以便于访问Hive上的数据。所谓的依赖其实就是将HIVE_HOME/hive-site.xml、HADOOP_HOME/etc/hadoop/core-site.xml、HADOOP_HOME/etc/hadoop/hdfs-site.xml文件复制到Spark目录下的conf目录中。特别注意的是在编译Spark的时候必须添加Hive依赖。如果在Spark中运行有关Hive的操作，这个时候如果你的Hive环境还没有部署好，那么Spark会在当前的工作目录中创建Hive的元数据仓库，叫做metastore_db。利用SparkSQL运行Hive存储数据的默认目录是HDFS上的/user/hive/warehouse。以上环境准备好了，那么我们怎么样才能在Spark中操作Hive呢，请看下边的代码例子。

object HiveDataSourceTest {
  //Hive数据存储在HDFS上的目录
  val hiveDataPathUrl = "/user/hive/warehouse"

  def main(args: Array[String]): Unit = {

    //初始化SparkSession，并支持Hive操作，然后hive数据在hdfs上的存储目录。
    val spark: SparkSession = SparkSession.builder()
      .appName("HiveDataSourceTest")
      .master("local[2]") //在Spark集群上运行的时候要去掉
      .config("spark.sql.warehouse.dir", hiveDataPathUrl)
      .enableHiveSupport()
      .getOrCreate()

    //利用spark sql创建Hive表
    spark.sql("CREATE TABLE IF NOT EXISTS person(name:StRING,age:INT) ROW FORMAT DELIMITED " +
      "FIELDS  TERMINATED BY ',' ")

    //利用spark sql 将数据加载到Hive表中
    spark.sql("LOAD DATA LOCAL INPATH '/opt/data/person.json' INTO TABLE person ")

    //利用spark sql 查询Hive表
    spark.sql("select * from person").show()

    //关闭SparkSession
    spark.close()
  }
}

使用spark-shell操作外部Hive

当我们使用已存在的Hive仓库，需要操作其上的数据，那我们就需要将HIVE_HOME/conf下的hive-site.xml拷贝到SPARK_HOME/conf下，然后在启动spark-shell的时候，一定要加上--jars /xx/xx/mysql-connector-java-xx.xx.jar，因为Hive元数据存在Mysql中，Driver程序需要连接Mysql。

spark-shell --jars /opt/lib/mysql-connector-java-6.0.1.jar

JSON数据库

SparkSQL能够自动推测出JSON数据集的结构，并将它加载成一个DataSet[Row]，也就是一个DataFrame。可以通过spark.read.json()的方式去读取JSON文件或者JSON字符串，然后返回一个DataFrame数据集。

 def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("DataFrameTest").master("local[2]").getOrCreate()
    //第一种读取本地或者文件系统上的json文件
    val personDF: DataFrame = spark.read.json("C:\\Users\\39402\\Desktop\\person.json")
    
      //导入隐式转换
    import spark.implicits._
  
    //第二种读取json字符串，
    val jsonDataSet: Dataset[String] = spark.createDataset("""{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil)

    //将DataSet转换成RDD，然后作为json方法的参数
    spark.read.json(jsonDataSet.rdd).show()
  }

JDBC

SparkSQL也包含了一种能够通过JDBC读取其他的数据源的数据源。这种方式比使用JdbcRDD的性能更高。这是因为这种方式的返回值是DataFrame，这样就可以利用SparkSQL进行处理，或者是跟其他数据源交互。JBDC这种方式还有的一种优点就是可以很容易利用Java或者Python操作。以下是SparkSQL利用JDBC方式操作Mysql数据库的代码。

package com.lyz.datasource

import java.util.Properties

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object JDBCDataSourceTest {

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("DataFrameTest").master("local[2]").getOrCreate()

    //SparkSQL利用JDBC读取Mysql数据第一种方式
    val table1: DataFrame = spark.read.format("jdbc")
      .option("url", "jdbc:mysql://localhost:3306/kettle_test?zeroDateTimeBehavior=convertToNull&characterEncoding=utf8&serverTimezone=GMT&useSSL=false")
      .option("dbtable", "local_table")
      .option("driver", "com.mysql.cj.jdbc.Driver")
      .option("user", "root")
      .option("password", "12345")
      .option("fetchsize", 5)
      .option("batchsize", 10).load()

    //SparkSQL利用JDBC读取Mysql数据第二种方式
    val connectionProperties: Properties = new Properties()
    connectionProperties.put("user", "root")
    connectionProperties.put("password", "12345")
    val table2: DataFrame = spark.read.jdbc("jdbc:mysql://localhost:3306/kettle_test?zeroDateTimeBehavior=convertToNull&characterEncoding" +
      "=utf8&serverTimezone=GMT&useSSL=false", "local_table", connectionProperties)

    //SparkSQL利用JDBC写数据到Mysql中的第一种方式
    table1.write.mode(SaveMode.Append).format("jdbc").option("url", "jdbc:mysql://localhost:3306/kettle_test?zeroDateTimeBehavior=convertToNull&characterEncoding=utf8&serverTimezone=GMT&useSSL=false")
      .option("dbtable", "remote_table")
      .option("driver", "com.mysql.cj.jdbc.Driver")
      .option("user", "root")
      .option("password", "12345")
      .option("fetchsize", 5)
      .option("batchsize", 10).save()


    //SparkSQL利用JDBC写数据到Mysql中的第二种方式

    table2.write.mode(SaveMode.Append).jdbc("jdbc:mysql://localhost:3306/kettle_test?zeroDateTimeBehavior=convertToNull&characterEncoding" +
      "=utf8&serverTimezone=GMT&useSSL=false", "remote_table", connectionProperties)
  }
}

性能数据调优

在SparkSQL作业中，我们可利用缓存数据来调优，将数据缓存在内存中，提高执行效率，我们可以利用spark.catalog.cacheTable("tableName")或者利用dataFrame.cache()方法来将数据缓存在内存中。删除缓存数据可以调用spark.catalog.uncacheTale("tableName")来删除缓存数据。我们可以根据实际情况来设置缓存大小等一下参数。spark.conf(key,value)来设置。下表是具体的参数

参数名称	默认值	具体的意思
spark.sql.inMemoryColumnarStorage.compressed	true	是否为每列选择压缩编解码器
spark.sql.inMemoryColumnarStorage.batchSize	10000	控制缓存批次大小

Spark SQL（二十三）Spark SQL数据源

定义