spark之sparkStreaming实时流处理 - 代码天地

spark之sparkStreaming实时流处理

编程语言 2019-01-26 13:45:51 阅读次数: 0

1、sparkStream官网

http://spark.apache.org/streaming/

2、什么是sparksreaming？

sparkStreamin是一种构建在spark之上的实时计算框架，他扩展了spark处理打过莫流失数据的能力，吞吐量高，容错能力强。（对标hadoop中storm）

3、处理数据方式

    sparkStreaming将输入的数据按照时间为单位进行切片，切除一个个的批，称之为DStream。DStream本质依然为RDD。所以对DStream的处理最终会被翻译成对底层RDD的处理。
    sparkStreaming对spark串行处理，严格保证顺序，当上一个DStream在当前算子未处理完成时，下一个Dstream会被阻塞（也就是等着），所以SparkStream应该合理分配切片时间和每个算子的复杂程度，尽力让每个算子都可以在切片时间内将数据梳理完。这样可以减少数据可能的堆积以及算子限制的可能，实现最优的并发。
    sparkStreaming的并发，体现在DStream对应的RDD本身的并发上，而放弃了批之间的并发，这样虽然会造成一定的延时性，但在可靠性、并发控制、程序开发复杂度降低都带来了好处。
优化点：合理设置切片时间

4、容错性

SparkStreaming在读取流数据进入内存时，会保存两个副本，计算只用一个。当出现问题的时候，快速切换到另一个副本。在规定的时间年内进行数据的固化。
由于支持RDD操作，所以本身的容错处理机制也会被继承。

5、sparkStreaming与storm对比

时延：

storm可实现毫秒时延的处理，而每次只处理一条event。

spark是秒级别，因为spark是在一个短暂的时间窗口处理多条event，本质是RDD的批处理。

数据吞吐

sparkStreaming中100个节点（每节点4个core），数秒延迟可处理6GB/s的shujuliang 。吞吐量是storm的2~5倍。

所以，spark的优点在于高吞吐、可靠性，以及编程的简易性。

猜你喜欢

转载自blog.csdn.net/starkpan/article/details/86655462

spark之sparkStreaming实时流处理

sparkstreaming整合kafka实时流处理的pom文件模板

sparkStreaming实时处理

SparkStreaming学习札记5-2020-2-17--SparkStreaming实时流处理项目实战

SparkStreaming学习札记5-2020-2-16--SparkStreaming实时流处理项目实战

SparkStreaming学习札记3-2020-2-14--SparkStreaming实时流处理项目实战

SparkStreaming学习札记4-2020-2-15--SparkStreaming实时流处理项目实战

SparkStreaming学习札记2-2020-2-13--SparkStreaming实时流处理项目实战

SparkStreaming学习札记1-2020-2-11--SparkStreaming实时流处理项目实战

大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】

spark streaming 实时流处理视频

spark streaming 实时流处理实战视频

Spark Streaming实时流处理项目实战

Spark Streaming实时流处理项目实战

Spark Streaming实时流处理项目5——Spark Streaming入门

基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建

3、Spark Streaming实时流处理项目---实时流处理产生背景与概述

Spark Streaming实时流处理项目实战笔记05

Spark Streaming实时流处理项目实战笔记一

Spark Streaming实时流处理项目实战笔记

Spark Streaming实时流处理笔记（5）—— Kafka API 编程

Spark Streaming实时流处理笔记（3）——日志采集Flume

Spark Streaming实时流处理笔记（7)—— 环境搭建

十九Spark处理Kafka流实现实时推荐算法

Spark Streaming实时流处理项目4——实战环境搭建

【教程分享】Spark Streaming实时流处理项目实战

实时流处理 Storm、Spark Streaming、Samza、Flink 比较

SparkStreaming 数据实时处理

Spark Streaming实时流处理笔记（2）—— 实时处理介绍

SparkStreaming_Flume_Poll 流处理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)