spark 从 kafka 消费的两种方式，分别有什么特点 - 代码天地

spark 从 kafka 消费的两种方式，分别有什么特点

其他 2020-04-17 12:50:54 阅读次数: 0

(1) Receiver 方式

使用 kafka 的高层次 API 进行消费，然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用 Spark Streaming 的预写日志机制（Write Ahead Log，WAL）。该机制会同步地将接收到的 Kafka 数据写入分布式文件系统（比如 HDFS）上的预写日志中。所以，即使底层节点出现了失败，也可以使用预写日志中的数据进行恢复。

需要注意的是：

1、Kafka 中的 topic 的 partition，与 Spark 中的 RDD 的 partition 是没有关系的。所以，在 KafkaUtils.createStream()中，提高 partition 的数量，只会增加一个 Receiver 中，读取 partition 的线程的数量。不会增加 Spark 处理数据的并行度。

2、如果基于容错的文件系统，比如 HDFS，启用了预写日志机制，接收到的数据都会被复制一份到预写日志中。因此，在KafkaUtils.createStream()中，设置的持久化级别是 StorageLevel.MEMORY_AND_DISK_SER。

(2) 基于 Direct 的方式

使用 kafka 更加底层的 api，自己维护偏移量。

这种方式有如下优点：

1、简化并行读取：如果要读取多个 partition，不需要创建多个输入 DStream 然后对它们进行 union 操作。Spark 会创建跟 Kafka partition 一样多的 RDD partition，并且会并行从 Kafka 中读取数据。所以在 Kafka partition 和 RDD partition之间，有一个一对一的映射关系。

3、高性能：receiver 方式为了保证数据不丢失，需要开启 WAL 机制，这样同样的数据会保存两份。而基于 direct的方式，不依赖 Receiver，不需要开启 WAL 机制，只要 Kafka 中作了数据的复制，那么就可以通过 Kafka 的副本进行恢复。

猜你喜欢

转载自www.cnblogs.com/tesla-turing/p/12719055.html

spark 从 kafka 消费的两种方式，分别有什么特点

spark消费kafka的两种方式

spark streaming 消费kafka两种方式的对比

Spark Streaming消费Kafka数据的两种方案

Spark 消费Kafka数据

Spark Streaming集成Kafka的两种方式

Spark Streaming 读取 Kafka 数据的两种方式

Spark Streaming整合Kafka的两种方式

spark-streaming获取kafka数据的两种方式

spark-streaming-连接kafka的两种方式

spark-streaming对接kafka的两种方式

Spark Streaming | 连接Kafka的两种方式

Spark读取Kafka两种方式的详细说明

Spark-streaming kafka数据接收两种方式

Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

一 Spark与kafka基本特点

Spark Streaming消费kafka示例

实用计：Spark Streaming消费Kafka数据的两种方案

spark streaming整合kafka的两种机制比较分析

Spark Stream对接Kafka的两种版本选择

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

Spark-streaming kafka数据接收两种方式对比

Spark-Streaming获取kafka数据的两种方式：Receiver与Direct

工具篇-Spark-Streaming获取kafka数据的两种方式（转载）

spark streaming 接收kafka消息之一 -- 两种接收方式

SparkStreaming消费Kafka的两种方式

Spark Streaming消费Kafka的数据进行统计

Spark streaming消费Kafka的正确姿势

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)