Spark sql: cargar y guardar operaciones: una de las notas de estudio de Spark

Uno, cargar y guardar operaciones básicas

Para Spark SQL DataFrame, independientemente de la fuente de datos que se cree a partir de DataFrame, existen algunas operaciones comunes de carga y guardado.

La operación de carga se utiliza principalmente para cargar datos y crear un DataFrame;

La operación de guardar se usa principalmente para guardar los datos en el DataFrame en un archivo.

 

Implementación de Scala:

package **.tag.test


import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object GenericLoadSave {

    def main(args: Array[String]) {

      val conf = new SparkConf()
        .setAppName("GenericLoadSave")

      val sc = new SparkContext(conf)
      val sqlContext = new SQLContext(sc)

      val usersDF = sqlContext.read.load("hdfs://ns1/***/users.parquet")
      usersDF.write.save("hdfs://ns1/home/***/nameAndFavoriteColors_scala")
     usersDF.select("name","favorite_color").write.save("hdfs://ns1/***/nameAndFavoriteColors_scala")
   }
}

 

Dos, especifique manualmente el tipo de fuente de datos

Spark SQL tiene algunos tipos de fuentes de datos integrados, como json, parquet, jdbc, etc., que se pueden convertir entre diferentes tipos de fuentes de datos.

val df = sqlContext.read .format ("json"). cargar ("people.json")

df.select ("nombre", "edad"). escribir .format ("parquet"). guardar ("nameAndAges.parquet")

 

Tres, SaveMode

Spark SQL proporciona diferentes modos de guardado para operaciones de guardado. Se usa principalmente para lidiar con cómo tratar cuando hay datos en la ubicación de destino.

saveMode.ErrorifExists (predeterminado): si los datos ya existen en la ubicación de destino, se lanza una excepción.

saveMode Append: si los datos ya existen en la ubicación de destino, agregue los datos.

saveMode Overwrite: si los datos ya existen en la ubicación de destino, sobrescriba.

saveMode.ignore: si ya hay datos en la ubicación de destino, no se realiza ninguna operación de tarea y se ignora.

 

Una de las notas del estudio de Beifeng Net Spark

 

Supongo que te gusta

Origin blog.csdn.net/limiaoiao/article/details/106527536
Recomendado
Clasificación