Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

1. External Data Source 外部数据源

    1)每一个spark程序以加载数据开始,以输出数据结束

    2)方便快速的从不同的数据源(json、parquet/rdbms),经过混合处理,在将处理结果以特定的格式,写回到指定的系统(HDFS S3)中

处理过程:

    1)要从关系型数据库导入大数据系统,然后处理完再导回原有数据库

目标:

    1)对于开发者:不需要把代码合并到spark源码中

    2)非常方便的加载和读取

    spark.read.format(format) 读

    people.write.format("parquet").save("path") 写  格式+路径

2. 操作Parquet文件数据

    1)加载数据 spark.read.format("parquet").load(path)

    2)写入数据 df.write.format("parquet").save(path)

3. 操作Hive表数据

    1)Spark.table(tableNmae) 读Hive表数据

    2)df.write.saveAsTable(tableName) 写入数据

    3)spark.sql("select deptno,count(1)from emp group by deptno").filter("deptno is not null").write.saveAs

    4)spark.tbale("在这里写入sql语句")

    5)注意设置分区数量,默认是200 

      spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")

4. 操作Mysql数据库等关系型数据库

5.关联MySQL和Hive表数据关联操作

猜你喜欢

转载自blog.csdn.net/canglan211/article/details/82953549