spark初识

spark官网

http://spark.apache.org

hadoop缺陷:

hadoop处理流程较为复杂,在map-reduce过程中需要不断的将数据落入磁盘,造成性能低下。

spark优化:

基于内存进行计算,尽量不落地,提高效率。达到hadoop的10-100倍处理速度。

spark设计:

基于actor模式的akka框架,代码结构简洁。
基于DAG(有向无环图)的执行引擎,减少了计算时频繁读写磁盘的开销。
RDD弹性分布式数据集,统一了各个数据源的数据形式,使后期计算不用再考虑数据格式引发的问题,且可进行分布式处理(数据源如日志,mysql,Nosql,爬虫爬取等)
提供Cache机制来实现数据共享,进一步提升性能。(比方说一个运算需要10步,可以在第5步进行缓存)
生态圈丰富,支持sparkCore、sparkSql(可对标hive)、sparkStreaming(可对标storm)、Graphix(图计算)、MLlib(机器学习)
支持java、scala、python。
底层使用HDFS作为存储结构,可使用yarn作为协调框架。

spark local模式搭建

https://blog.csdn.net/starkpan/article/details/86437089

猜你喜欢

转载自blog.csdn.net/starkpan/article/details/86645752