Spark 概念

版权声明:版权声明:本文为博主原创文章,转载请附上博文链接! https://blog.csdn.net/qq_42246689/article/details/85723473

2、Spark 概念 

官网:http://spark.apache.org/

Spark 是一种快速、通用、可扩展的大数据分析引擎

2009 年诞生于加州大学伯克利分校 AMPLab

2010 年开源 2013 年 6 月成为 Apache 孵化项目

2014 年 2 月成为 Apache 顶级项目 

Spark 生态圈也称为 BDAS(伯克利数据分析栈),是伯克利 APMLab 实验室打造的,力图在 算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用 的一个平台。伯克利 AMPLab 运用大数据、云计算、通信等各种资源以及各种灵活的技术方 案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好的理解世界。该生态 圈已经涉及到机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领 域。  
 
Spark 生态圈以 SparkCore 为核心,从 HDFS、Amazon S3 或者 HBase 等持久层读取数据,以 MESOS、YARN 和自身携带的 Standalone 为资源管理器调度 Job 完成 Spark 应用程序的计算。 这些应用程序可以来自于不同的组件,如 SparkShell/SparkSubmit 的批处理、SparkStreaming 的实时处理应用、SparkSQL 的结构化数据处理/即席查询、BlinkDB 的权衡查询、MLlib/MLbase 的机器学习、GraphX 的图处理和 PySpark 的数学/科学计算和 SparkR 的数据分析等等。 
 
目前,Spark 生态系统已经发展成为一个包含多个子项目的集合,其中包含 Spark SQL、 Spark Streaming、GraphX、MLlib 等子项目,Spark 是基于内存计算的大数据并行计算框架。 Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高 可伸缩性,允许用户将 Spark 部署在大量廉价硬件之上,形成集群。Spark 得到了众多大数 据公司的支持,这些公司包括 Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、 阿里、腾讯、京东、携程、优酷土豆。当前百度的 Spark 已应用于凤巢、大搜索、直达号、 百度大数据等业务;阿里利用 GraphX 构建了大规模的图计算和图挖掘系统,实现了很多生 产系统的推荐算法;腾讯 Spark 集群达到 8000 台的规模,是当前已知的世界上最大的 Spark 集群。 

猜你喜欢

转载自blog.csdn.net/qq_42246689/article/details/85723473