1. External Data Source 外部数据源
1)每一个spark程序以加载数据开始,以输出数据结束
2)方便快速的从不同的数据源(json、parquet/rdbms),经过混合处理,在将处理结果以特定的格式,写回到指定的系统(HDFS S3)中
处理过程:
1)要从关系型数据库导入大数据系统,然后处理完再导回原有数据库
目标:
1)对于开发者:不需要把代码合并到spark源码中
2)非常方便的加载和读取
spark.read.format(format) 读
people.write.format("parquet").save("path") 写 格式+路径
2. 操作Parquet文件数据
1)加载数据 spark.read.format("parquet").load(path)
2)写入数据 df.write.format("parquet").save(path)
3. 操作Hive表数据
1)Spark.table(tableNmae) 读Hive表数据
2)df.write.saveAsTable(tableName) 写入数据
3)spark.sql("select deptno,count(1)from emp group by deptno").filter("deptno is not null").write.saveAs
4)spark.tbale("在这里写入sql语句")
5)注意设置分区数量,默认是200
spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")
4. 操作Mysql数据库等关系型数据库
5.关联MySQL和Hive表数据关联操作