spark快速大数据分析

spark是一个通用计算框架。

spark是一个大一统的软件栈。

spark是大数据处理引擎。

—————————

前言

spark主要有三个优点:

  1. spark好用,高级API剥离了对集群本身的关注,可以专注于计算本身。
  2. spark很快,支持交互式使用和复杂算法。
  3. spark是通用引擎,可以用于各种运算:sql查询、文本处理、机器学习(MLib机器学习库)等。

—————————

spark数据分析导论

spark是一个实现快速而通用的集群计算的平台。

spark的一个主要特点之一就是速度快,因为在内存中进行计算;不过即使是必须在磁盘上的复杂计算,spark依然比mapreduce更高效。

spark适用于各类原先需要多种不同的分布式平台的场景:批处理、迭代算法、交互式查询、流处理。

spark的核心是一个对很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

——————

spark组件:

  • spark core基本功能
  • spark sql结构化数据
  • spark streaming实时计算:对实时数据进行流式计算
  • 数据流:网页服务器日志、用户提交的状态更新组成的消息队列等等
  • MLib机器学习:分类、回归、聚类、协同过滤等等
  • GraphX图计算
  • 集群管理器(cluster manager):Hadoop YARN、Apache Mesos、独立调度器

——————

spark的用户和用途

数据科学任务:数据分析

数据处理应用:软件开发

——————

spark的存储层次:

spark不仅可以将任何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统,如本地文件、Hive、HBase等。即,Hadoop并非spark的必要条件,spark支持任何实现了Hadoop接口的存储结构,包括文本文件等。


猜你喜欢

转载自blog.csdn.net/u014381464/article/details/79837686