Spark SQL cargar datos y guardar datos de forma general

Descargar datos

spark.read.format("…")[.option("…")].load("…")
  • format ("..."): especifique el tipo de datos que se cargarán, incluidos "csv", "jdbc", "json", "orc", "parquet" y "textFile".
  • load ("..."): En los formatos "csv", "jdbc", "json", "orc", "parquet" y "textFile", es necesario pasar la ruta para cargar los datos. El archivo de parquet se carga por defecto.
  • opción ("..."): En el formato "jdbc", debe pasar los parámetros JDBC correspondientes, url, usuario, contraseña y dbtable.
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

guardar datos

df.write.format("…").mode("...")[.option("…")].save("…")
  • Los parámetros de formato y opción son los mismos que los anteriores.
  • guardar: especifique la ruta de almacenamiento. El formato predeterminado de almacenamiento de archivos de parquet comprimido es ágil.
  • modo: se utiliza para especificar cómo procesar los datos. Error predeterminado, lanzar una excepción si el archivo existe; agregar si el archivo existe, agregar; sobrescribir si el archivo existe, sobrescribir; ignorar si el archivo existe, ignorarlo.
// 默认保存
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

// 使用format保存指定格式的文件
df.write.format("json").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

// mode指定保存选项  
df.write.format("json").mode("append").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

df.write.format("json").mode("overwrite").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

Supongo que te gusta

Origin blog.csdn.net/FlatTiger/article/details/115284467
Recomendado
Clasificación