spark消费kafka时自助管理offset方法 - 代码天地

spark消费kafka时自助管理offset方法

其他 2018-09-24 09:00:41 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_32635069/article/details/81259537

offset的保存位置
在Kafka0.9版本之前消费者保存的偏移量是在zookeeper中/consumers/GROUP.ID/offsets/TOPIC.NAME/PARTITION.ID。新版消费者不再保存偏移量到zookeeper中，而是保存在Kafka的一个内部主题中“__consumer_offsets”，该主题默认有50个分区，每个分区3个副本，分区数量有参数offset.topic.num.partition设置。通过消费者组ID的哈希值和该参数取模的方式来确定某个消费者组已消费的偏移量保存到__consumer_offsets主题的哪个分区中
为什么要自助管理offset
如果是使用spark-streaming-kafka-0-10，那么我们建议将enable.auto.commit设为false。这个配置只是在这个版本生效，enable.auto.commit如果设为true的话，那么意味着offsets会按照auto.commit.interval.ms中所配置的间隔来周期性自动提交到Kafka中。在Spark Streaming中，将这个选项设置为true的话会使得Spark应用从kafka中读取数据之后就自动提交，而不是数据处理之后提交，这不是我们想要的。所以为了更好地控制offsets的提交，我们建议将enable.auto.commit设为false。
如何自主管理
自主管理offset，就是选取第三方存储系统（HDFS、HBase、zookeeper等）
HDFS：有官方提供，checkpoint(),有一个重要的弊端：在HDFS备份后发生产品升级或代码改动操作，将无法还原已备份的offset，所以正式产品没人用它
HBase和zookeeper比较常用，保存对应topic下每个分区的offset，但是要注意当topic的新增分区的可能
新版本的方法
由kafka自身保存，这个方法也是官方推荐的
应用
使用第三方管理offset适用于需要对消息消费，offset的值有严格监控的场景
参考
http://blog.51cto.com/littledevil/2148207?source=dra
https://www.jianshu.com/p/ef3f15cf400d
http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html

猜你喜欢

转载自blog.csdn.net/qq_32635069/article/details/81259537

spark消费kafka时自助管理offset方法

Spark Streaming消费Kafka并手动使用Redis管理Kafka Offset

SparkStreaming消费Kafka的offset的管理方式

kafka 生产/消费API、offset管理/原理、kafka命令

spark streaming从指定offset处消费Kafka数据

【SparkStreaming学习之四】 SparkStreaming+kafka管理消费offset

深入了解Kafka【四】消费者的Offset管理

Kafka - 指定offset进行消费

Kafka——从特定offset开始消费

重置Kafka的消费组的offset

从指定offset消费kafka数据

Kafka offset管理

Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once

【Flink】Flink消费Kafka数据时指定offset的五种方式

【Flink】Flink消费Kafka数据时指定offset的五种方式

spark streaming kafka消费多个topic时不执行的问题

Spark 消费Kafka数据

kafka消费端提交offset的方式

如何管理Spark Streaming消费Kafka的偏移量（二）

如何管理Spark Streaming消费Kafka的偏移量（一）

如何管理Spark Streaming消费Kafka的偏移量（三）

Zookeeper+Kafka+Spark 管理offset 出现第三方jar版问题

Spark2.3整合kafka010手动管理offset

修改kafka topic offset 的方法

Kafka指定分区和offset消费。 Kafka指定分区和offset消费。

【Kafka十】关于Kafka的offset管理

【Kafka】Kafka Consumer 管理 Offset 原理

Offset Management For Apache Kafka With Apache Spark Streaming

spark createDirectStream保存kafka offset(JAVA实现)

Spark Streaming消费kafka示例

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)