kafka的log-存储机制与消息不丢失制

文章目录

kafka的log-存储机制与消息不丢失制

1、kafka的log-存储机制

1.1、kafka中log日志目录及组成
1.2、kafka的offset查找过程
1.3kafka Message的物理结构及介绍
1.4、kafka中log CleanUp

2、kafka消息不丢失制

2.1、生产者生产数据不丢失

2.1.1、生产者数据不丢失过程图
2.1.2、发送数据方式
2.1.3、ack机制（应答机制）

2.2、kafka的broker中数据不丢失
2.3、消费者消费数据不丢失

1、kafka的log-存储机制

1.1、kafka中log日志目录及组成

kafka在我们指定的log.dir目录下，会创建一些文件夹；名字是【主题名字-分区名】所组成的文件夹。在【主题名字-分区名】的目录下，会有两个文件存在，如下所示：

#索引文件
00000000000000000000.index
#日志内容
0000000000000000000.log

在目录下的文件，会根据log日志的大小进行切分，.log文件的大小为1G的时候，就会进行切分文件；
在这里插入图片描述
在kafka的设计中，将oﬀset值作为了文件名的一部分
比如：topic的名字为：test，有三个分区，生成的目录如下如下所示：
test-0
test-1
test-2

kafka日志的组成
segment ﬁle组成：由两个部分组成，分别为index ﬁle和data ﬁle，此两个文件一一对应且成对出现；后缀.index和.log分别表示为segment的索引文件、数据文件。
segment文件命名规则：partion全局的第一个segment从0开始，后续每个segment文件名为上一个全局 partion的最大oﬀset（偏移message数）。数值最大为64位long大小，19位数字字符长度，没有数字就用0 填充。
在这里插入图片描述
通过索引信息可以快速定位到message。通过index元数据全部映射到memory，可以避免segment ﬁle的IO磁盘操作；
通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小。稀疏索引：为了数据创建索引，但范围并不是为每一条创建，而是为某一个区间创建；
好处：就是可以减少索引值的数量。
不好的地方：找到索引区间之后，要得进行第二次处理。

上边讲了那么多，可能还是不太好理解，这纯属正常情况。因为小编开始学的时候不懂得地方也有很多。哈哈…,下边，小编附赠上一张图片，便于萌新们理解
kafka文件存储机制
在这里插入图片描述

1.2、kafka的offset查找过程

在这里插入图片描述
比如：要查找绝对offset为7的Message：

上图的左半部分是索引文件，里面存储的是一对一对的key-value，其中key是消息在数据文件（对应的log文件）中的编号，比如“1,3,6,8……”，分别表示在log文件中的第1条消息、第3条消息、第6条消息、第8条消息……，那么为什么在index文件中这些编号不是连续的呢？这是因为index文件中并没有为数据文件中的每条消息都建立索引，而是采用了稀疏存储的方式，每隔一定字节的数据建立一条索引。这样避免了索引文件占用过多的空间，从而可以将索引文件保留在内存中。但缺点是没有建立索引的Message也不能一次定位到其在数据文件的位置，从而需要做一次顺序扫描，但是这次顺序扫描的范围就很小了。
其中以索引文件中元数据3,4597为例，其中3代表在右边log数据文件中从上到下第3个消息(在全局partiton表示第4597个消息)，
其中4597表示该消息的物理偏移地址（位置）为4597。

1.3kafka Message的物理结构及介绍

kafka Message的物理结构，如下图所示：

在这里插入图片描述

1.4、kafka中log CleanUp

kafka中清理日志的方式有两种：delete和compact。
删除的阈值有两种：过期的时间和分区内总日志大小。
在kafka中，因为数据是存储在本地磁盘中，并没有像hdfs的那样的分布式存储，就会产生磁盘空间不足的情况，可以采用删除或者合并的方式来进行处理
可以通过时间来删除、合并：默认7天（log.retention.hours）
还可以通过字节大小、合并：默认-1 无限制（log.retention.bytes）

2、kafka消息不丢失制

2.1、生产者生产数据不丢失

2.1.1、生产者数据不丢失过程图

在这里插入图片描述
说明：有多少个分区，就启动多少个线程来进行同步数据

2.1.2、发送数据方式

可以采用同步或者异步的方式-过程图
在这里插入图片描述
可以采用同步或者异步的方式

同步：发送一批数据给kafka后，等待kafka返回结果

1、生产者等待10s，如果broker没有给出ack相应，就认为失败。
2、生产者重试3次，如果还没有相应，就报错

异步：发送一批数据给kafka，只是提供一个回调函数。

1、先将数据保存在生产者端的buffer中。buffer大小是2万条 
2、满足数据阈值或者数量阈值其中的一个条件就可以发送数据。
3、发送一批数据的大小是500条

说明：如果broker迟迟不给ack，而buﬀer又满了，开发者可以设置是否直接清空buﬀer中的数据。

2.1.3、ack机制（应答机制）

对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，
所以没必要等 ISR 中的 follower 全部接收成功。
所以 Kafka 为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，
选择以下的配置。
acks 参数配置：

0：producer 不等待 broker 的 ack，这一操作提供了一个最低的延迟，broker 一接收到还
没有写入磁盘就已经返回，当 broker 故障时有可能丢失数据；

1：producer 等待 broker 的 ack，partition 的 leader 落盘成功后返回 ack，如果在 follower
同步成功之前 leader 故障，那么将会丢失数据；

-1（all）：producer 等待 broker 的 ack，partition 的 leader 和 follower 全部落盘成功后才
返回 ack。但是如果在 follower 同步完成后，broker 发送 ack 之前，leader 发生故障，那么会
造成数据重复。

说明：如果broker端一直不给ack状态，producer永远不知道是否成功；producer可以设置一个超时时间10s，超过时间认为失败。

2.2、kafka的broker中数据不丢失

在broker中，保证数据不丢失主要是通过副本因子（冗余），防止数据丢失

2.3、消费者消费数据不丢失

在消费者消费数据的时候，只要每个消费者记录好oﬀset值即可，就能保证数据不丢失。
=====================================================

好了，本章内容就到这里结束啦。各位的【三连】就是小编坚持下去的动力。小编会继续分享更多需要的知识哦。我们下期见…GoodBye ~~~
----------------------------------------------------------------------------------------------------------------
我是小哪吒，一个互联网行业的业余选手。

所有你周围的环境，都在试图将你拉向平庸

小哪吒~

发布了41 篇原创文章 · 获赞 114 · 访问量 2万+

私信关注