流式计算的三种框架：Storm、Spark和Flink - 代码天地

流式计算的三种框架：Storm、Spark和Flink

企业开发 2019-09-12 11:18:59 阅读次数: 0

我们知道，大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中，流式计算和批量计算是两种主要的大数据计算模式，分别适用于不同的大数据应用场景。

目前主流的流式计算框架有Storm、Spark Streaming、Flink三种，其基本原理如下：

Apache Storm

在Storm中，需要先设计一个实时计算结构，我们称之为拓扑（topology）。之后，这个拓扑结构会被提交给集群，其中主节点（master node）负责给工作节点（worker node）分配代码，工作节点负责执行代码。在一个拓扑结构中，包含spout和bolt两种角色。数据在spouts之间传递，这些spouts将数据流以tuple元组的形式发送；而bolt则负责转换数据流。在这里插入图片描述

Apache Spark

Spark Streaming，即核心Spark API的扩展，不像Storm那样一次处理一个数据流。相反，它在处理数据流之前，会按照时间间隔对数据流进行分段切分。Spark针对连续数据流的抽象，我们称为DStream（Discretized Stream）。 DStream是小批处理的RDD（弹性分布式数据集）， RDD则是分布式数据集，可以通过任意函数和滑动数据窗口（窗口计算）进行转换，实现并行操作。
在这里插入图片描述

Apache Flink

针对流数据+批数据的计算框架。把批数据看作流数据的一种特例，延迟性较低(毫秒级)，且能够保证消息传输不丢失不重复。
在这里插入图片描述
Flink创造性地统一了流处理和批处理，作为流处理看待时输入数据流是**的，而批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。Flink程序由Stream和Transformation这两个基本构建块组成，其中Stream是一个中间结果数据，而Transformation是一个操作，它对一个或多个输入Stream进行计算处理，输出一个或多个结果Stream。

这三种计算框架的对比如下：

在这里插入图片描述
参考文章：

Streaming Big Data: Storm, Spark and Samza

猜你喜欢

转载自blog.51cto.com/13945147/2437363

流式计算的三种框架：Storm、Spark和Flink

Storm，Spark和Flink三种流式大数据处理框架对比

流式大数据处理的三种框架：Storm，Spark和Samza

流式计算的代表：Storm、Flink、Spark Streaming

大数据处理的三种框架：Storm，Spark和Samza区别和关联选择

Storm与Spark、Hadoop三种框架对比

流式计算产品对比(Storm、Trident、Spark Streaming、Flink）

Storm 流式计算框架

Storm流式实时计算开源框架（三）

Flink及Storm、Spark主流计算引擎框架比较

批量计算(batch computing)和流式计算(stream computing)在大数据领域的应用，Apache Storm、Apache Spark和Apache Flink

Flink和Spark Streaming流式计算模型比较分析

流式计算引擎-Storm、Spark Streaming

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink

本文将介绍“数据计算”环节中常用的三种分布式计算组件——Hadoop、Storm以及Spark。

Storm：分布式流式计算框架

【分布式】流式计算Storm框架

Flink及主流流框架spark,storm比较

Flink及Storm、Spark流框架比较

数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

从Storm和Spark 学习流式实时分布式计算的设计

Flink 流式计算框架（学习一）

流式计算（三）-Flink Stream 篇一

Twitter Storm流式计算（实时计算）框架简介一

storm流式处理框架

流式计算与storm介绍

大数据框架Flink， Spark， Hadoop， Samza ，Storm选择和对比

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ，流式处理框架一网打尽！

Jstorm简介（参考storm的实时流式计算框架）

Storm流式实时计算开源框架（二）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)