Broker代理

Producer生产者

在这里插入图片描述

一个主题可以有多个分区
分区的作用是在物理层面上,提高Kafka的并发能力/吞吐能力
那么也就意味着,生产者往Kafka的某个主题发送消息的时候可以同时向不同的分区发
如, 13579号消息发给1分区, 2468号消息发给2分区
这样就变成了向两个分区同时发消息,提供效率
注意: 既然分区是用来提高并发的,那么不同分区最好是在不同的机器上(如果都在一台机器,那么这台机器的压力会较大,可以通过副本来解决,让副本的主分散在各个机器)
可以和HDFS的文件分块一样理解,都是为了提高并发读写!!!

指的是Kafka消息在物理位置上的存储表示/表现
消息最终要存在磁盘上,那么消息在磁盘上的表现形式就是Segment分段文件
partition、segment、offset都是为topic服务的，每个topic可以分为多个partition，一个partition相当于一个大目录，每个partition下面有多个大小相等的segment文件，这个segment是由message消息/Record记录组成的
每个partiiton/文件夹有多个segment分段/文件，segment又包含了两个同名文件:
xxx.log：存放我们的日志文件，即所有的数据最后都以日志文件的形式存放到了kafka集群当中
xxx.index ：其实就是一个索引，记录了一条消息在log文件中的位置，查找消息的时候先从index获取位置，然后就可以定位到消息在log文件具体哪个地方，这样查找消息的速度更快。
Kafka中的分区类似Hive中的分区–就是分文件夹
Kafka中的分段类似Hive中的分桶–就是文件夹下再分文件

ISR表示目前Alive活着的并且能够“Catch-up”跟得上Leader的从Replicas(follower)集合
我们前面说副本分为Leader主副本和Follower从副本
Follower会从Leader中复制数据然后做备胎
那么我们如果要求用一个集合表示所有的可用的从副本Replicas(followers)
那么该副本必须满足以下条件:
- 1.活着的
- 2.不要落后Leader太多数据
如果一个flower比一个leader落后太多，或者超过一定时间未发起数据复制请求，则leader将会将其从ISR中移除 ,也就是延迟时间和延迟条数任意一个超过阈值都会把该Replica踢出ISR。