Spark Streaming原理与架构 - 代码天地

Spark Streaming原理与架构

企业开发 2021-01-22 12:17:15 阅读次数: 0

简介:Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。

计算流程:

将流试计算分解成一系列短小的批处理作业,批处理引擎是SparkCore
按照输入数据的batch size（如1秒）,将数据分解成一段一段转换成RDD
Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作，将RDD经过操作变成中间结果保存在内存中。

在这里插入图片描述

架构图:
在这里插入图片描述
解释:

Spark Streaming从各种输入源中读取数据，并把数据分组为小的批次
时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设在0.5秒到几秒之间
每个输入批次都形成一个RDD，以 Spark 作业的方式处理并生成其他的 RDD
驱动器程序中的 StreamingContext 会周期性地运行 Spark 作业来处理这些数据
每个RDD代表数据流中一个时间片内的数据

原理详细图解:

按照时间间隔(BatchInterval 0.5s 到几秒不等) 划分数据为微批次（Micro-Batch），每批次数据当做RDD，再进行处理分析
创建StreamingContext流试上下文对象,但是底层还是SparkContext

在这里插入图片描述

启动接收器Receiver,Receiver作为Task任务运行在Executor中,并且一直运行,一直接收数据
Receive按照时间间隔来接收数据,将流试数据划分为多个Block块,划分流式数据的时间间隔BlockInterval，默认值为200ms，通过属性【spark.streaming.blockInterval】设置
最后到达时间间隔BlockInterval,加载SparkContext处理数据

循环处理流试数据下图:
在这里插入图片描述

总结:
整个Streaming运行过程中，涉及到两个时间间隔：

批次时间间隔：BatchInterval
每批次数据的时间间隔，每隔多久加载一个Job；
Block时间间隔：BlockInterval
接收器划分流式数据的时间间隔，可以调整大小哦，官方建议最小值不能小于50ms；
默认值为200ms，属性：spark.streaming.blockInterval，调整设置

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/m0_49834705/article/details/112862564

Spark Streaming架构原理

Spark Streaming原理与架构

Spark Streaming基础架构原理

【Spark Streaming】（一）架构及工作原理

Spark Streaming 架构与抽象

Spark Streaming的系统架构

spark--Spark Streaming原理-★★★

Spark Streaming运行原理

Spark Streaming原理

Spark Streaming简介及原理

Spark Streaming工作原理

Spark Streaming 原理（一）

Spark Streaming 原理与实践

Spark Streaming原理简析

Spark Streaming编程模型及原理

Spark 以及 spark streaming 核心原理及实践

spark笔记之Spark Streaming原理

Spark Streaming 容错机制以及事务语义+架构原理+数据接收与处理原理

Spark Streaming（上）--实时流计算Spark Streaming原理介绍

【Spark】Spark Core 架构原理

Spark Streaming和Storm架构比对

Spark Streaming 介绍及架构——基础篇

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

Spark Streaming

Spark-Streaming及其工作原理

实时流计算Spark Streaming原理介绍

Spark Streaming工作原理分析与使用

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)