FusionInsight大数据开发---SparkStreaming概述 - 代码天地

FusionInsight大数据开发---SparkStreaming概述

其他 2019-07-26 17:41:36 阅读次数: 0

SparkStreaming概述

SparkStreaming是Spark核心API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。

SparkStreaming原理

SparkStreaming接收实时的输入数据流，然后将这些数据切分为批数据供Spark引擎处理，Spark引擎将数据生成最终的结果数据。
使用DStream从Kafka和HDFS等源获取连接的数据流。DStream是一系列连续的RDD组成。

SparkStreaming数据源

基本源：HDFS等文件系统、Socket连接等
高级源：Kafka等
自定义源：需要实现用户自定义receiver

可靠性（二次开发）

Reliable Receiver
设置CheckPoint
确保Driver可以自动启动
使用Write Ahead Log 功能

SparkStreaming代码流程
常见业务代码逻辑

创建StreamingContext
定义输入源
准备应用计算逻辑
使用streamingContext.start()方法接受和处理数据。
使用streamingContext.stop()方法停止流计算。

窗口操作
SparkStreaming支持窗口计算，允许用户在一个滑动窗口数据上应用transformation算子。
窗口在源DStream上滑动，合并和操作落入窗口RDDs，产生窗口化的DStream的RDDs。

Checkpoint
SparkStreaming可以checkpoint足够的信息到容错存储系统中，以使系统崩溃后从故障中恢复。

Metadata checkpoint：保存流计算的定义信息到HDFS中
Data checkpoint：保存生成的RDD到HDFS中。

SparkStreaming性能调优

设置合理的批处理时间（batch Duration）
设置合理数据接收并行度

设置多个Receiver接受数据
设置合理的Receiver阻塞时间

设置合理数据处理并行度
使用Kryo系列化
内存调优

设置持久化级别减少GC开销
使用并发的标记-清理GC算法减少GC暂停时间

猜你喜欢

转载自www.cnblogs.com/cainiao-chuanqi/p/11251740.html

FusionInsight大数据开发---SparkStreaming概述

FusionInsight大数据开发--HBase应用开发

FusionInsight大数据开发---Kafka应用开发

FusionInsight大数据开发---sorl应用开发

大数据之sparkStreaming（一）：sparkStreaming概述、SparkStreaming的组件

FusionInsight企业级大数据平台

大数据-SparkStreaming

【大数据开发运维解决方案】华为FusionInsight大数据Kibana对接安全模式Elasticsearch方案

FusionInsight，一个融合的大数据平台

基于FusionInsight Manager的大数据架构图

【大数据】SparkStreaming学习笔记

SparkStreaming概述

大数据概述

hadoop大数据概述

大数据 01 概述

大数据应用概述

大数据算法（概述）

一、大数据的概述

大数据：概述

大数据概述（一）

大数据概述（二）

大数据技术概述

大数据概述1

大数据概述2003291320

[BD] 大数据概述

ACA - 大数据概述

[1064]大数据概述

SparkStreaming（一）概述

大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】

大数据实时计算框架：SparkStreaming

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)