Spark Streaming管理Kafka偏移量

其他 2018-12-12 11:40:45 阅读次数: 0

前言

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

但是，Spark Streaming checkpoints在应用程序修改后由于从checkpoint反序列化失败而无法恢复，因此不是非常可靠，特别是如果您将此机制用于关键生产应用程序，另外，基于zookeeper的offset可视化工具将无法使用。我们不建议通过Spark checkpoints来管理偏移量。因此本文将手动存储offset到zookeeper，完全自我掌控offset。

从ZK获取offset

创建ZKClient，API有好几个，最后用带序列化参数的，不然保存offset的时候容易出现乱码。

查看该groupId在该topic下是否有消费记录，如果有，肯定在对应目录下会有分区数，children大于0则有记录。

在有记录的情况下，去拿具体的offset

注意红色线框部分，在zookeeper里存储的offset有可能在kafka里过期了，所以要拿kafka最小的offset和zookeeper里的offset比较一下。

接下来就可以创建Kafka Direct DStream了，前者是从zookeeper拿的offset，后者是直接从最新的开始（第一次消费）。

最后就是处理RDD，保存Offset。

感兴趣可以加Java架构师群获取Java工程化、高性能及分布式、高性能、深入浅出。高架构。性能调优、Spring，MyBatis，Netty源码分析和大数据等多个知识点高级进阶干货的直播免费学习权限都是大牛带飞让你少走很多的弯路的群..号是：855801563 对了小白勿进最好是有开发经验

注：加群要求

1、具有工作经验的，面对目前流行的技术不知从何下手，需要突破技术瓶颈的可以加。

2、在公司待久了，过得很安逸，但跳槽时面试碰壁。需要在短时间内进修、跳槽拿高薪的可以加。

3、如果没有工作经验，但基础非常扎实，对java工作机制，常用设计思想，常用java开发框架掌握熟练的，可以加。

4、觉得自己很牛B，一般需求都能搞定。但是所学的知识点没有系统化，很难在技术领域继续突破的可以加。

5.阿里Java高级大牛直播讲解知识点，分享知识，多年工作经验的梳理和总结，带着大家全面、科学地建立自己的技术体系和技术认知！

猜你喜欢

转载自my.oschina.net/u/3959491/blog/2986764

Spark Streaming管理Kafka偏移量

如何管理Spark Streaming消费Kafka的偏移量（三）

如何管理Spark Streaming消费Kafka的偏移量（二）

如何管理Spark Streaming消费Kafka的偏移量（一）

Spark Streaming 之 Kafka 偏移量管理

Spark中如何管理Spark Streaming消费Kafka的偏移量

Java 版spark Streaming 维护kafka 的偏移量

Spark -- spark on kafka Receiver & Direct Kafka手动维护偏移量

kafka-spark偏移量提交至redis kafka1.0版本

Spark on Kafka Receiver 和 Direct Kafka手动维护偏移量

Kafka 偏移量管理实现精确一次语义在Spark&Flink中的技术实践-kafka商业应用实战

Spark+Kafka的Direct方式将偏移量发送到Zookeeper的实现

Kafka偏移量(Offset)管理

Spark --------Spark Streaming 集成 Kafka

Spark Streaming 管理 Kafka Offsets 的方式探讨

Kafka - 偏移量提交

Kafka 偏移量的演变

转载：如何管理kafka偏移量（一）

spark streaming kafka 整合

Using Kafka with Spark Streaming

spark streaming与Kafka结合

Spark Streaming与Kafka集成

Spark Streaming+Kafka

spark streaming + kafka

spark streaming kafka

Spark Streaming整合Kafka

Spark-streaming-kafka

计算成交量例子，kafka/spark streaming/zk

Spark Streaming+Kafka spark 写入 kafka

Spark Streaming 整合 Kafka（Spark读取Kafka）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)