spark streaming 消费kafka两种方式的对比 - 代码天地

spark streaming 消费kafka两种方式的对比

其他 2020-01-11 15:51:49 阅读次数: 0

1、读取数据的并发度

Receiver的方式：采用的是单核的模式，即使你设置了多个线程数，你的上下文环境中设置的并行度很大，也不会产生影响，还是1。只有通过配置多个receiver才会并行的读取kafka中的数据

Direct的方式：读取数据的并行度和topic的分区数相同，而且生成的DStream的并行度也和topic的分区数相同，一一对应。

2、生成的DSream的并行度

Receiver的方式：程序中Batch的间隔是4000ms，每Batch的数据构成一个RDD，在整个执行的环境中spark.streaming.blockInterval =100。生成的DStream的并发度是4000/100 =40

Direct的方式：生成的DStream的并行度也和topic的分区数相同，一一对应。

3、kafka日志文件

Receiver的方式：默认情况下这种方式读取的数据都是存在内存中的很容易导致OOM，如果要保证零数据丢失，必须开启预写日志机制，该机制会同步地将接收到的Kafka数据写入分布式文件系统（比如HDFS）上的预写日志中，即使底层节点出现了失败，也可以使用预写日志中的数据进行恢复。这种方式日志会保存两份，Kafka自己本身就有高可靠的机制，会对数据复制一份，而这里又会复制一份到WAL中，数据冗余，效率低下。

Direct的方式：只要Kafka中作了数据的复制，那么就可以通过Kafka的副本进行恢复。减少了存储数据到hdfs的步骤增加了job的执行速度。

4、offset

Receiver的方式：ZooKeeper中保存消费过的offset的，无法保证数据被处理一次且仅一次，可能会处理两次。因为Spark和ZooKeeper之间可能是不同步的。

Direct的方式：Spark Streaming自己就负责追踪消费的offset，并保存在checkpoint中。Spark自己一定是同步的，因此可以保证数据是消费一次且仅消费一次。也可以把offset保存到mysql中。用事务的方式保证数据的读取和offset的保存同时成功才行。

yagch

发布了48 篇原创文章 · 获赞 5 · 访问量 1185

私信关注

猜你喜欢

转载自blog.csdn.net/qq_34897849/article/details/102691435

spark streaming 消费kafka两种方式的对比

Spark Streaming消费Kafka数据的两种方案

Spark-streaming kafka数据接收两种方式对比

Spark Streaming集成Kafka的两种方式

Spark Streaming 读取 Kafka 数据的两种方式

Spark Streaming整合Kafka的两种方式

spark-streaming获取kafka数据的两种方式

spark-streaming-连接kafka的两种方式

spark-streaming对接kafka的两种方式

Spark Streaming | 连接Kafka的两种方式

Spark-streaming kafka数据接收两种方式

Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

实用计：Spark Streaming消费Kafka数据的两种方案

spark streaming整合kafka的两种机制比较分析

Spark Streaming消费kafka示例

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别

Spark Streaming与Storm的对比

Storm与Spark Streaming对比

spark streaming kafka 整合

Using Kafka with Spark Streaming

spark streaming与Kafka结合

Spark Streaming与Kafka集成

Spark Streaming+Kafka

spark streaming + kafka

spark streaming kafka

Spark Streaming整合Kafka

Spark-streaming-kafka

Spark --------Spark Streaming 集成 Kafka

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)