spark学习笔记_1 - 代码天地

spark学习笔记_1

其他 2018-07-03 15:43:58 阅读次数: 0

　　简单的讲，Apache Spark是一个快速且通用的集群计算系统。

　　Apache Spark 历史：

　　　　2009年由加州伯克利大学的AMP实验室开发，并在2010年开源，13年时成长为Apache旗下大数据领域最活跃的开源项目之一。2014年5月底spark1.0.0发布，2016年6月spark2.0发布，至今最近的版本是xxx(看官网)。

　　Spark的使用场景：

　　　　实时查看浏览统计信息，流式计算，SQL查询，图计算，机器学习。

　　Spark特点：

1. 快速的处理能力。由于spark可以将中间输出和最后结果存储在内存中，不像hadoop MR那样需要大量的磁盘I/O的开销，同时spark的DAG执行引擎也支持数据在内存中的计算。
2. 使用方便。spark支持Java、Scala、Python和R编写的应用程序，同时提供了80多个高等级操作符，可以用Scala、Python和R shell进行交互查询。
3. 通用性强。Spark提供了一组库，其中包括SQL和DataFrames、用于机器学习的MLlib、GraphX和Spark Straming，在同一个应用程序中无缝地组合这些库。
4. 随处运行。spark能够访问HDFS、Cassandra、HBase、S3、Hive、Techyon以及任何Hadoop的数据源。

　　Spark运行模式：

运行环境	模式	描述
Local	本地模式	本地线程方式运行，分local单线程和local-cluster多线程，主要用于开发调试spark应用程序。
Standalone	集群模式	利用spark自带的资源管理器和调度器运行spark集群，采用Master/Slave模式，为解决单点故障可采用ZK实现HA。
ApacheMesos	集群模式	运行在Mesos资源管理器框架之上，由Mesos负责资源管理，spark负责任务调度和计算。
Hadoop Yarn	集群模式	运行在Yarn资源管理器框架之上，由Yarn负责资源管理，spark负责任务调度和计算。

　　　　在实际的应用中，spark应用程序的运行模式取决于传递给sparkcontext的master环境变量的值，目前该值由特定的字符串或是URL组成，如下所示：

- - Local[N]：使用N个线程。
  - Local cluster[worker,core,Memory]：伪分布式模式，可以配置所需要启动的虚拟工作节点，以及每个节点所管理的CPU数量和内存大小。
  - Spark://hostname:port：Standalone模式，需要将spark部署到相关节点，URL为Spark master的主机地址和端口。
  - Mesos://hostname:port：Mesos模式，需要将spark和mesos部署到相关节点，URL为Mesos的主机地址和端口。
  - Yarn standalone/Yarn cluster：Yarn模式一，主程序逻辑和任务都运行在Yarn集群中。
  - Yarn client：Yarn模式二，主程序逻辑运行在本地，具体任务运行在Yarn集群中。

　　Spark术语：

- Application：Spark应用程序，包含一个Driver program和若干Executor。
- SparkContext：Spark应用程序的入口，负责调度各个运算资源，协调各个Woker Node上的Executor。
- Driver Program：运行Application的main()函数并创建SparkContext。
- Executor：Worker Node上的进程，该进程负责运行Task，并负责任务间数据维护（数据是存在内存中还是磁盘上）。
- Cluster Manager：为任务分配资源。
- Worker Node：集群中运行spark application的节点。
- Task：运行在Executor上的工作单元。
- Job：SparkContext提交的具体Action操作。
- Stage：每个Job会被拆分很多组task，每组task被称为Stage，也称TaskSet。
- RDD：弹性分布式数据集。
- DAGScheduler：根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler。
- TaskSchedule：将Taskset提交给WorkerNode集群运行并返回结果。

　　Spark Job运行原理：

1. 创建SparkContext对象，然后SparkContext向Cluster Manager申请资源；
2. Cluster Manager在WokerNode上创建Executor并分配资源（CPU，内存等），后期Executor定期向ClusterManager发送心跳信息；
3. SparkContext启动DAGSchudler，将提交的任务分解为若干Stage，各个Stage构成DAG；
4. Taskset发送给TaskSchudle，TaskSchudle将Task发送给对应的Executor，同时SparkContext将应用程序代码发到Executor，从而启动Task的执行；
5. Executor执行Task，然后释放相应的资源。

　　

　　

猜你喜欢

转载自www.cnblogs.com/hsy060314/p/8550500.html

spark学习笔记1

spark学习笔记_1

Spark学习笔记（1）——

Spark 学习笔记 1

Spark学习笔记——1

Spark学习笔记(1)

Spark学习笔记(1)RDD

从0开始学习spark的学习笔记（1）

spark 2.2.0学习笔记1之概述

Spark学习笔记（1、Spark概览 2、RDD编程）

spark学习(1) : spark介绍

spark复习笔记(1)

spark 笔记1

spark学习笔记：Spark Streaming

Spark学习笔记： Spark Streaming

Spark学习笔记：Spark SQL

Spark-SQL学习笔记(1) - Datasets and DataFrames

Spark学习笔记1：Application，Driver，Job，Task，Stage理解

[1].Spark 学习笔记使用java ---word count

spark快速大数据分析学习笔记（1）

RDD编程基础学习笔记1_Spark优雅的wordCount

spark mlib官方文档学习和翻译笔记（1）

Spark学习之路-1

Spark学习（1）概要

spark学习记录-1

Spark学习(1)

Spark2.x学习笔记：1、Spark2.2快速入门（本地模式）

内存计算框架Spark学习笔记（1）—— Spark Standalone模式配置

【Spark学习笔记】1、Java-Maven-Spark项目环境搭建

spark学习笔记__chap4_spark基础原理__1_模块介绍

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)