Spark程序的端到端运行架构解读 - 代码天地

Spark程序的端到端运行架构解读

其他 2018-09-12 16:08:49 阅读次数: 0

版权声明：本博客都是作者10多年工作总结 https://blog.csdn.net/Peter_Changyb/article/details/82661389

Spark任务提供多层分解的概念，Spark组件将用户的应用程序分解为内部执行任务并提供执行容器，资源管理为spark组件提供资源管理和调度。

Spark任务：

应用程序：由一个driver program和多个job构成；
job：由多个stage组成；
stage：对应一个taskset，
taskset：对应一组关联的相互之间没有shuffle依赖关系的task组成。
task：任务最小的工作单

Spark组件：

Driver Program (驱动程序) 是Spark 的核心组件
构建SparkContext(Spark应用的入口,它负责和整个集群的交互，创建需要的变量，还包含集群的配置信息等)
将用户提交的job转换为DAG图(类似数据处理的流程图)
根据策略将DAG图划分为多个stage，根据分区从而生成一系列tasks
根据tasks要求向资源管理器申请资源
提交任务并检测任务状态
Executor真正执行task的单元，一个Worker Node上可以有多个Executor

资源管理组件

YARN（通用） Master/Slave结构
Resource Manager(RM)全局的资源管理器，负责系统的资源管理和分配
Node Manager(NM)每个节点上的资源和任务管理器
ApplicationMaster(AM)每个应用程序都有一个，负责任务的调度和监视，并与RM调度器协商为任务获取资源。
Standalone（Spark自带）Master/Slave结构
Master类似于YARN的RM
Worker类似于YARN的NM

Spark的任务执行流程

Driver完成task的解析和生成
Driver向Cluster Manager（集群资源管理器）申请运行task需要的资源。
集群资源管理器为task分配满足要求的节点，并在节点按照要求创建Executor
创建的Executor向Driver注册。
Driver将spark应用程序的代码和文件传送给分配的executor
executor运行task，运行完之后将结果返回给Driver或者写入HDFS或其他介质。

猜你喜欢

转载自blog.csdn.net/Peter_Changyb/article/details/82661389

Spark程序的端到端运行架构解读

spark任务在executor端的运行过程分析

端到端文本识别CRNN论文解读

Flutter+Serverless端到端研发架构实践

【日志架构】ELK Stack + Kafka 端到端练习

spark应用程序的运行架构

客户端运行服务器端程序

端到端测试

端到端

端到端原则

FinClip小程序+Rust（四）：端到端融合

spark任务运行完成后在driver端的处理逻辑

离线架构HADOOP/HIVE/SPARK服务端环境

论文解读：对端到端语音识别网络的两种全新探索

点云配准的端到端深度神经网络：ICCV2019论文解读

论文解读｜VoxelNet:基于点云的3D物体检测的端到端学习

WCF客户端运行时架构体系详解

Spark运行架构

Spark运行架构浅析

Spark运行架构(Good)

Spark 运行架构

【Spark架构】运行模式

Spark运行架构特点

3.2.5 端到端的学习

NightWatch端到端测试

CSFB端到端优化

Spark HiveServer2中使用jdbc客户端用户运行spark job

马蜂窝 IM 移动端架构的从 0 到 1

Spark1.6-----源码解读之BlockManager组件shuffle服务和客户端

Spark架构原理-Spark运行架构剖析

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)