理解Spark

其他 2018-11-26 20:10:54 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weixin_36372879/article/details/84396421

Spark

Hadoop框架存在的问题

JobTracker是MapReduce的集中处理点，存在单点故障的问题
以MapReduce task数目作为资源的表示比较简单，没有考虑CPU和内存占用情况
任务集中导致源代码复杂，增加bug修复和系统维护的难度

RDD

RDD(Resilient Distributed Dataset)是一个可读的、可分区的分布式数据集，任何数据在spark中都可以被表示为RDD

Spark应用程序

把需要处理的数据转为RDD，然后对RDD进行一系列的变换和操作
在这里插入图片描述
Driver Program程序入口，运行App的main，创建SparkContext
Cluster Manager：在集群上获取资源的外部服务
Workder Node：可以运行application代码的节点
Executor：一个进程，该进程负责运行task

Spark on yarn-cluster框架

Yarn的基本思想

Yarn的基本思想是将JobTracker的资源管理和作业调度分离

资源管理：ResourceManager
作业调度：ApplicationMaster创建SparkContext

在这里插入图片描述

ResourceManager

负责资源管理与调度，资源管理的基本单位：task

NodeManager

节点代理，负责：

启动container/executor
监控资源使用情况给RM

Application Master

负责作业调度

是第一个container
启动SparkContext

SparkContext

向RM注册
向RM申请资源
启动executor等待task
分配task给NM上的executor
监控task的运行情况

Spark on yarn-cluster流程

在这里插入图片描述

提交Application给RM
RM向NodeManager申请第一个container给Application Master，Application Mater初始化SparkContext
SparkContext向RM注册，并且申请运行executor的资源
SparkContext和NodeManager通信，启动executor，SparkContext分配task给executor执行
executor报告task的状态，直至完成
注销Application，归还资源

猜你喜欢

转载自blog.csdn.net/weixin_36372879/article/details/84396421

理解Spark

理解Spark的核心RDD

spark RDD的理解

spark stage 的理解

Spark RDD理解

Spark原理解析

浅谈我对Spark的理解

快速理解Spark Dataset

对spark算子aggregateByKey的理解

Spark-RPC理解

理解spark闭包

spark术语及理解

Spark的Ml pipeline理解

Spark Streaming文档理解

深入理解Spark

Spark中RDD的理解

spark KafkaRDD的理解

Spark - 初理解

Spark概念理解

spark原理解析和spark core

七种最常见的Ｈａｄｏｏｐ和Ｓｐａｒｋ项目，你见过几种？

Spark的driver理解和executor理解

深入理解spark Stage

理解Spark的运行机制

理解Spark里的闭包

关于spark shuffle过程的理解

spark streaming的NetworkWordCount实例理解

Spark WordCount原理解析

spark session 深入理解

spark集群运行模式理解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)