跟我一起学Spark之——数据读取与保存

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SunWuKong_Hadoop/article/details/87069372

原书中写到:

        工程师会了解到更多的输出格式,有利于找到非常合适用于下游处理程序的格式。

        数据科学家则可能更关心数据现有的组织形式。

三类常见数据源:

1.文件格式与文件系统;

(文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩)

(本地“常规”文件系统、Amazon S3、HDFS)

2.Spark SQL中的结构化数据源;(Apache Hive、JSON)

3.数据库与键值存储;(Java数据库连接、Cassandra、HBase、Elasticsearch)

        Spark会根据文件的扩展名选择对应的处理方式,这一过程是封装好的,对用户透明。(诸如文本文件(非结构化)、Json格式(半结构化)、SequencrFile(结构化文件))。

总结:

        将数据读取到Spark中,并将计算结果以你所希望的方式存储起来。

未完待续~~~~~~

猜你喜欢

转载自blog.csdn.net/SunWuKong_Hadoop/article/details/87069372