Spark Streaming快速入门系列(1) | Spark Streaming概述

其他 2020-09-08 19:43:02 阅读次数: 0

一.Spark Streaming是什么

Spark Streaming 是 Spark 核心 API 的扩展, 用于构建弹性, 高吞吐量, 容错的在线数据流的流式处理程序. 总之一句话: Spark Streaming 用于流式数据的处理
数据可以来源于多种数据源: Kafka, Flume, Kinesis, 或者 TCP 套接字. 接收到的数据可以使用 Spark 的负责元语来处理, 尤其是那些高阶函数像: map, reduce, join, 和window.
最终, 被处理的数据可以发布到 FS, 数据库或者在线dashboards.
另外Spark Streaming也能和MLlib（机器学习）以及Graphx完美融合.
在 Spark Streaming 中，处理数据的单位是一批而不是单条，而数据采集却是逐条进行的，因此 Spark Streaming 系统需要设置间隔使得数据汇总到一定的量后再一并操作，这个间隔就是批处理间隔。批处理间隔是 Spark Streaming 的核心概念和关键参数，它决定了 Spark Streaming 提交作业的频率和数据处理的延迟，同时也影响着数据处理的吞吐量和性能。
Spark Streaming 提供了一个高级抽象: discretized stream(SStream), DStream 表示一个连续的数据流.
DStream 可以由来自数据源的输入数据流来创建, 也可以通过在其他的 DStream 上应用一些高阶操作来得到.
在内部, 一个 DSteam 是由一个个 RDD 序列来表示的.

二.Spark Streaming特点

1.易用
通过高阶函数来构建应用
2.容错
3.易整合到 Spark 体系中
4.缺点
Spark Streaming 是一种“微量批处理”架构, 和其他基于“一次处理一条记录”架构的系统相比, 它的延迟会相对高一些.

三.SparkStreaming 架构

在这里插入图片描述
背压机制

Spark 1.5以前版本，用户如果要限制 Receiver 的数据接收速率，可以通过设置静态配制参数spark.streaming.receiver.maxRate的值来实现，此举虽然可以通过限制接收速率，来适配当前的处理能力，防止内存溢出，但也会引入其它问题。比如：producer数据生产高于maxRate，当前集群处理能力也高于maxRate，这就会造成资源利用率下降等问题。
为了更好的协调数据接收速率与资源处理能力，1.5版本开始 Spark Streaming 可以动态控制数据接收速率来适配集群数据处理能力。背压机制（即Spark Streaming Backpressure）: 根据 JobScheduler 反馈作业的执行信息来动态调整 Receiver 数据接收率。
通过属性spark.streaming.backpressure.enabled来控制是否启用backpressure机制，默认值false，即不启用。

猜你喜欢

转载自blog.csdn.net/qq_46548855/article/details/108393514

Spark Streaming快速入门系列(1) | Spark Streaming概述

Spark Streaming概述（1）

Spark Streaming 快速入门系列(1) | Spark Streaming 的简单介绍！

Spark Streaming概述

Spark Streaming详细概述

[1] - spark-streaming概述

1. Spark Streaming概述

Spark Streaming 快速入门

Spark Streaming快速入门系列（7）

Spark Streaming编程快速入门

Spark入门(五)——Spark Streaming

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

Spark Streaming

【Spark Streaming】3、Spark Streaming入门

Spark Streaming 实现思路与模块概述

Spark Streaming入门

从WordCount入门Spark Streaming

Spark Streaming 快速入门系列(6) | DStream的几种保存方式

Spark Streaming快速入门系列(5) | foreachRDD输出

Spark Streaming快速入门系列(3) | Kafka 数据源

Spark Streaming快速入门系列(2) | wordcount案例

[Spark][spark_streaming]#5_spark_streaming&spark_sql

13.spark streaming之快速入门

spark学习笔记：Spark Streaming

Spark学习之Spark Streaming

Spark学习笔记： Spark Streaming

Spark --------Spark Streaming 集成 Kafka

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

Spark Streaming快速入门系列(1) | Spark Streaming概述

目录

一.Spark Streaming是什么

二.Spark Streaming特点

三.SparkStreaming 架构

猜你喜欢