序
spark是一个通用计算框架。
spark是一个大一统的软件栈。
spark是大数据处理引擎。
—————————
前言
spark主要有三个优点:
- spark好用,高级API剥离了对集群本身的关注,可以专注于计算本身。
- spark很快,支持交互式使用和复杂算法。
- spark是通用引擎,可以用于各种运算:sql查询、文本处理、机器学习(MLib机器学习库)等。
—————————
spark数据分析导论
spark是一个实现快速而通用的集群计算的平台。
spark的一个主要特点之一就是速度快,因为在内存中进行计算;不过即使是必须在磁盘上的复杂计算,spark依然比mapreduce更高效。
spark适用于各类原先需要多种不同的分布式平台的场景:批处理、迭代算法、交互式查询、流处理。
spark的核心是一个对很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。
——————
spark组件:
- spark core基本功能
- spark sql结构化数据
- spark streaming实时计算:对实时数据进行流式计算
- 数据流:网页服务器日志、用户提交的状态更新组成的消息队列等等
- MLib机器学习:分类、回归、聚类、协同过滤等等
- GraphX图计算
- 集群管理器(cluster manager):Hadoop YARN、Apache Mesos、独立调度器
——————
spark的用户和用途
数据科学任务:数据分析
数据处理应用:软件开发
——————
spark的存储层次:
spark不仅可以将任何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统,如本地文件、Hive、HBase等。即,Hadoop并非spark的必要条件,spark支持任何实现了Hadoop接口的存储结构,包括文本文件等。