大数据平台学习（一）实时计算框架和存储 - 代码天地

大数据平台学习（一）实时计算框架和存储

其他 2019-04-04 21:18:21 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_20095389/article/details/88038846

一、计算框架

Storm，Spark，Flink简介和区别

参考：https://www.jianshu.com/p/16323566f3c6

0、框架流程

从各种来源取消息 -> 流式系统（分布式流通，计算任务，业务等）-> 输出（后面具体业务UI等）

1、Storm

Storm 实时计算框架
为了容错性，每个节点都要返回ack，可以理解为消息是否正确处理，因此导致吞吐量不高。
特点，不会丢消息，但是会消息会重复

2、Spark Streaming

Spark Streaming 是实时计算框架（伪的 — 小批量消息传递）
batch 数据转换成 RDD — 弹性分布式数据集（Resilient Distributed Datasets）
RDD机制只能保证内部计算exactly once （流式系统自身保证）
接收处和sink处不保证exactly once
因为减小了ack开销，所以比Storm要快

3、Flink

Flink 真正流式实时计算框架
snapshot(快照)，相当于设了一个关卡，这一个关卡内所有的数据验证通过，就pass，不通过，重新载入上一个关卡reset。
快照内包含取数据的position等信息，保证exactly once.

二、存储

Hdfs（Hadoop分布式文件系统(HDFS)）, Hbase, Hive,
更正：Hadoop是MapReduce+ HDFS，MapReduce是计算框架，HDFS是文件系统，做存储
参考
https://www.jianshu.com/p/c055da172c11
https://www.cnblogs.com/xubiao/p/5571176.html

1、Hdfs & Hbase & Hive

Hbase与Hive都是架构在Hadoop之上的。都是用Hadoop作为底层存储。
Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，是一个数据仓库处理工具，可以让我们用SQL语言查询使用
HBase是为了支持弥补Hadoop对实时操作的缺陷的项目，也是一个数据库，但是可以实时高效的读取数据
【自己理解的不知道对不对】Hive和Hbase建立在Hadoop上，但是可能对于数据的转换不一样，比如数据结构化，因此导致在处理数据上会有些区别。

2、Redis

参考
https://blog.csdn.net/aikumei/article/details/77671891

Redis是内存型Key/Value系统，读写性能非常好，支持操作原子性，很适合用来做高速缓存。
它常被称作是一款数据结构服务器（data structure server）

猜你喜欢

转载自blog.csdn.net/qq_20095389/article/details/88038846

大数据平台学习（一）实时计算框架和存储

实时计算的最佳实践：基于表格存储和Blink的大数据实时计算

大数据实时计算框架

TiDB一个大数据实时计算的存储利器

接近淘宝 80%的大数据实时计算平台，从0搭建的经验和坑

大数据实时计算框架：SparkStreaming

大数据“重磅炸弹”：实时计算框架 Flink

大数据实时计算框架-实例

.NET 大数据实时计算--学习笔记

实时计算框架

火山引擎发布流式计算 Flink 产品，助力构建大数据实时计算平台

腾讯云公布大数据平台最新数据，日实时计算量超40万亿

大数据案例 -- 互联网日志实时收集和实时计算的简单方案

实时存储引擎和实时计算引擎

Hadoop（三）大数据离线计算与实时计算

大数据实时计算Spark学习笔记（7）—— RDD 数据倾斜处理

大数据的实时计算与离线数据统计整理学习

大数据实时计算Spark学习笔记（9）—— Spar SQL(1) 读取 json 文件

大数据实时计算Spark学习笔记（8）—— RDD 持久化

大数据实时计算Spark学习笔记（5）—— RDD的 transformation

大数据实时计算Spark学习笔记（4）—— Spak核心 API 模块介绍

大数据实时计算Spark学习笔记（3）—— Spak Maven 编译插件

大数据实时计算Spark学习笔记（2）—— Spak 集群搭建

大数据实时计算Spark学习笔记（1）—— Spak单词统计

大数据实时计算Spark学习笔记（11）—— Spark Streaming

最新《大数据实时计算系统Storm从基础概念到深入学习》

大数据学习之Storm实时计算概述及安装部署33

一文让你彻底了解大数据实时计算引擎 Flink

Twitter Storm流式计算（实时计算）框架简介一

Storm 实战：构建大数据实时计算

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)