Java程序员面试必备——kafka的专业术语

编程语言 2019-07-01 21:00:58 阅读次数: 0

Java程序员面试必备——kafka的专业术语

主题 + 客户端

发布订阅的对象是主题（Topic）
向主题发布消息的客户端应用程序称为生产者（Producer），生产者可以持续不断地向多个主题发送消息
订阅这些主题消息的客户端应用程序称为消费者（Consumer），消费者能够同时订阅多个主题的消息
生产者和消费者统称为客户端

服务端

Kafka的服务端由被称为Broker的服务进程构成，一个Kafka集群由多个Broker组成
Broker负责接收和处理客户端发送过来的请求，以及对消息进行持久化
多个Broker进程能够运行在同一台机器上，但更常见的做法是将不同的Broker分散运行在不同的机器上

这样如果集群中某一台机器宕机了，即使在它上面运行的所有Broker进程都挂掉了
其他机器上的Broker也依然能够对外提供服务，这是Kafka提供高可用的手段之一

备份

实现高可用的另一个手段是备份机制（Replication）
备份：把相同的数据拷贝到多台机器上，这些相同的数据拷贝在Kafka中被称为副本（Replica）
副本的数量是可以配置的，Kafka定义了两类副本：领导者副本（Leader Replica）和追随者副本（Follower Replica）

领导者副本：对外提供服务，对外指的是与客户端程序进行交互
生产者总是向领导者副本写消息
消费者总是从领导者副本读消息
追随者副本：被动地追随领导者副本，不能与外界交互
向领导者副本发送请求，请求领导者副本把最新生产的消息发给它，进而与领导者副本保持同步
MySQL的从库是可以处理读请求的
Master-Slave => Leader-Follower

副本机制可以保证数据的持久化或者消息不丢失，但没有解决伸缩性（Scalability）的问题

如果领导者副本积累了太多的数据以至于单台Broker机器无法容纳，该如何处理？
可以把数据分割成多份，然后保存在不同的Broker上，这种机制就是分区（Partitioning）
MongoDB、Elasticsearch – Sharding
HBase – Region

分区

Kafka中的分区机制是将每个主题划分成多个分区（Partition），每个分区是一组有序的消息日志
生产者生产的每条消息只会被发送到一个分区中，Kafka的分区编号是从0开始的
副本是在分区这个层级定义的，每个分区下可以配置N个副本，只能有1个领导者副本和N-1个追随者副本
生产者向分区（分区的领导者副本）写入消息，每条消息在分区中的位置由位移（Offset）来表征，而分区位移总是从0开始
三层消息架构

第一层是主题层，每个主题可以配置M个分区，而每个分区又可以配置N个副本
第二层是分区层
每个分区的N个副本中只能有1个领导者副本，对外提供服务
其他N-1个副本是追随者副本，只能提供数据冗余
第三层是消息层，分区中包含若干条消息，每条消息的位移从0开始，依次递增
最后，客户端程序只能与分区的领导者副本进行交互

持久化

Kafka使用消息日志（Log）来保存数据，一个日志是磁盘上一个只能追加写（Append-Only）消息的物理文件

只能追加写入，避免了缓慢的随机IO操作，改为性能较好的顺序IO操作，这是实现Kafka高吞吐量的一个重要手段

Kafka需要定期删除消息以回收磁盘空间，可以通过日志片段（Log Segment）机制来实现

在Kafka底层，一个日志又被细分成多个日志段，消息被追加到当前最新的日志段中
当写满一个日志段后，Kafka会自动切分出一个新的日志段，并将老的日志段封存起来
Kafka在后台有定时任务定期地检查这些老的日志段是否能够被删除，从而实现回收磁盘空间的目的

消费者

点对点模型（Peer to Peer，P2P）：同一条消息只能被下游的一个消费者消费，其他消费者不能染指
Kafka通过消费者组（Consumer Group）来实现P2P模型

消费者组：多个消费者实例共同组成一个组来消费一组主题
这组主题中的每个分区都只会被组内的一个消费者实例消费，其他消费者实例不能消费它
即消费者对分区有所有权

引入消费者组的目的：提高消费者端的吞吐量（TPS）
消费者实例（Consumer Instance）：即可以是运行消费者应用的进程，也可以是一个线程
重平衡（Rebalance）

若组内的某个实例挂了，Kafka能够自动检测到，然后把这个挂掉的实例之前负责的分区转移给组内其他存活的消费者
重平衡引发的消费者问题很多，目前很多重平衡的Bug社区都无力解决

消费者位移（Consumer Offset）：记录消费者当前消费到了分区的哪个位置，随时变化

分区位移：表征的是消息在分区内的位置，一旦消息被成功写入到一个分区上，消息的分区位移就固定了

小结

Java程序员面试必备——kafka的专业术语

消息（Record）：消息是Kafka处理的主要对象
主题（Topic）：主题是承载消息的逻辑容器，实际使用中多用来区分具体的业务
分区（Partition）：一个有序不变的消息序列，每个主题下有多个分区
消息位移（Offset）：也叫分区位移，表示一条消息在分区中的位置，是一个单调递增且不变的值
副本（Replica）

Kafka中同一条消息能够被拷贝到多个地方以提供数据冗余
副本分为领导者副本和追随者副本，副本在分区的层级下，每个分区可配置多个副本实现高可用

生产者（Producer）：向主题发布消息的应用程序
消费者（Consumer）：从主题订阅消息的应用程序
消费者位移（Consumer Offset）：表征消费者的消费进度，每个消费者都有自己的消费者位移
消费者组（Consumer Group）：多个消费者实例共同组成一个组，同时消费多个分区以实现高吞吐
重平衡（Rebalance）

消费者组内某个消费者实例挂掉后，其他消费者实例自动重新分配订阅分区的过程
重平衡是Kafka消费者端实现高可用的重要手段

写在最后

第一：看完点赞，感谢您的认可；
...
第二：随手转发，分享知识，让更多人学习到；
...
第三：记得点关注，每天更新的！！！
...

Java程序员面试必备——kafka的专业术语

猜你喜欢

转载自blog.51cto.com/14409778/2416015

Java程序员面试必备——kafka的专业术语

Java程序员进阶必知的分布式系统专业术语及分析

Java程序员进阶必知的分布式系统专业术语分析

java专业术语

程序员容易读错的IT专业术语词典

好程序员大数据分享10个大数据专业术语

好程序员大数据高端班分享10个大数据专业术语

java常用专业术语

Java后台专业术语

Java中的专业术语

币圈新人必备的专业术语

产品经理必备的专业术语

Java专业术语面试问题合集（贰）

Java专业术语面试问题合集（壹）

ACM及各类程序竞赛专业术语

Java学习之专业术语

Java的一些专业术语

Java面试史上最全的JAVA专业术语面试100问（51-100）

Java面试史上最全的JAVA专业术语面试100问（51-100）

Java面试史上最全的JAVA专业术语面试100问 (前1-50)

Java面试史上最全的JAVA专业术语面试100问 (前1-50)

Java面试史上最骚的JAVA专业术语面试100问（前1-50）。

专业术语

测试专业术语

oracle专业术语

PMP专业术语

VOIP专业术语

IT 行业专业术语

专业术语解释

黑客专业术语

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)