快速认识Kafka阶段(1)——消息队列,Kafka基本简介

上一阶段给大家讲的是Redis,接下来这一阶段,我给你大家更新Kafka的知识分享哦!!!

在这里插入图片描述

企业中离线业务场景实时业务场景都需要使用到kafka
Kafka具备数据的计算能力和存储能力,但是两个能力相对(MR/SPARK,HDFS)较弱.
Kafka角色的角色与hbase比较像,层级关系比较多。

1、消息队列的介绍

消息:是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。

消息队列(Message Queue):是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存在

2、消息队列的应用场景

消息队列在实际应用中包括如下四个场景:

应用耦合:多应用间通过消息队列对同一消息进行处理,避免调用接口失败导致整个过程失败;
在这里插入图片描述
在这里插入图片描述
异步处理:多应用对消息队列中同一消息进行处理,应用间并发处理消息,相比串行处理,减少处理时间;
在这里插入图片描述
限流削峰:广泛应用于秒杀或抢购活动中,避免流量过大导致应用系统挂掉的情况;
在这里插入图片描述
在这里插入图片描述
消息驱动的系统:系统分为消息队列、消息生产者、消息消费者,生产者负责产生消息,消费者(可能有多个)负责对消息进行处理;

3、消息队列的两种模式

消息队列包括两种模式,点对点模式(point to point, queue)和发布/订阅模式(publish/subscribe,topic)

3.1 点对点模式

点对点模式下包括三个角色:
消息队列
发送者 (生产者):生产数据的程序/人/对象
接收者(消费者):处理队列内的数据的程序/人/对象

在这里插入图片描述

消息发送者生产消息发送到queue中,然后消息接收者从queue中取出并且消费消息。消息被消费以后,queue中不再有存储,所以消息接收者不可能消费到已经被消费的消息。

点对点模式特点:

每个消息只有一个接收者(Consumer)(即一旦被消费,消息就不再在消息队列中);
•	发送者和接收者间没有依赖性,发送者发送消息之后,不管有没有接收者在运行,都不会影响到发送者下次发送消息;
•	接收者在成功接收消息之后需向队列应答成功,以便消息队列删除当前接收的消息;
3.2 发布/订阅模式

发布/订阅模式下包括三个角色:
角色主题(Topic):消息得分类,分组(王者荣耀,QQ飞车)
发布者(Publisher):生产者
订阅者(Subscriber):消费者

在这里插入图片描述

发布者将消息发送到Topic,系统将这些消息传递给多个订阅者。

发布/订阅模式特点:

•	每个消息可以有多个订阅者;
•	发布者和订阅者之间有时间上的依赖性。针对某个主题(Topic)的订阅者,它必须创建一个订阅者之后,才能消费发布者的消息。
•	为了消费消息,订阅者需要提前订阅该角色主题,并保持在线运行;

4、kafka的基本介绍

4.1 kafka的基本介绍

官网:http://kafka.apache.org/

kafka是一个分布式,分区的,多副本的,多订阅者的消息发布订阅系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等。
最初由linkedin公司开发,使用scala语言编写,

Kafka is a distributed,partitioned,replicated commit logservice。

kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

	Kafka:是一个分布式的(可以多节点),分区的,多副本的,多订阅者的消息发布订阅系统。

	Kafka对消息分类使用topic(一个分类,一个类别)
	
	生产者:Producer(制造数据、生产数据的,将消息推送到队列的)
	消费者:Consumer(读取数据的,浏览数据的,在队列中获取数据)
	服务器:Broker

在这里插入图片描述

4.2 kafka的好处
1、可靠性:分布式的,分区,复制和容错。
2、可扩展性:kafka消息传递系统轻松缩放,无需停机。
3、耐用性:kafka使用分布式提交日志,这意味着消息会尽可能快速的保存在磁盘上,因此它是持久的。 
4、性能:kafka对于发布和定于消息都具有高吞吐量。即使存储了许多TB的消息,他也爆出稳定的性能。 
kafka非常快:保证零停机和零数据丢失
Kafka的补充说明:

kafka消息保留在磁盘上,并在集群内复制以防止数据丢失(不能提高数据的读取效率)。
消费端为拉模型来主动拉取数据。

1、Consumer Group:每一个Consumer属于一个特定的Consumer Group(可以为每个Consumer指定 groupName)
2、Broker:kafka集群中包含一个或者多个服务实例
3、Topic:每条发布到kafka集群的消息都有一个类别,分类
4、Partition:Partition是一个物理上的概念,每个Topic包含一个或者多个Partition
5、segment:一个partition当中存在多个segment文件段,每个segment分为两部分,.log文件和.index文件,
其中.index文件是索引文件,主要用于快速查询.log文件当中数据的偏移量位置
.log存放数据文件
4.3 分布式的发布与订阅系统

apache kafka是一个分布式发布-订阅消息系统和一个强大的队列,可以处理大量的数据,并使能够将消息从一个端点传递到另一个端点,kafka适合离线和在线消息消费。

kafka消息保留在磁盘上,并在集群内复制以防止数据丢失。

kafka构建在zookeeper同步服务之上。它与apachespark非常好的集成,应用于实时流式数据分析

4.4 kafka的主要应用场景

指标分析
kafka通常用于操作监控数据。用于接收、聚合来自多种应用程序的统计信息, 以便于向产生环境中的数据集中反馈数据

日志聚合解决方法
kafka可用于跨组织从多个服务器收集日志,并使他们以标准的合适提供给多个服务器。

流式处理
流式处理框架(spark,storm,flink)从主题中读取数据,对齐进行处理,并将处理后的数据写入新的主题,供用户和应用程序使用,kafka的强耐久性在流处理的上下文中也非常的有用。

好啦 今天就先给大家介绍到这里咯 下一篇给大家更新Kafka的集群搭建,喜欢点个赞吧!
发布了44 篇原创文章 · 获赞 24 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_44466534/article/details/104953935