大数据学习之路93-kafka简介

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_37050372/article/details/83024961

kafka是实时计算中用来做数据收集的,它是一个消息队列。它使用scala开发的。

那么我们就会想我们这里能不能用hdfs做数据存储呢?它是分布式的,高可用的。

但是它还缺少一些重要的功能:比如说我们往hdfs中写数据,之后我们需要实时的读取。当我们读到某一行的时候断掉了,假如说这个读取是消费者的消费,这样突然的宕机,重启之后就需要,重新读取之前的文件,可是这个文件我们之前已经读取了一部分。这样就会造成重复消费。

kafaka就会好一点,它有偏移量,我们消费到哪里,他就会记录到哪里。

所以kafka几乎是实时计算的标配,它就是用来做数据的暂时存储。

简单说明什么是Kafka:

举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,                   消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生                     产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1                                              秒钟生产100 个鸡蛋,消费者1 秒钟只能吃50 个鸡蛋,那要不了一会,消费者就吃不消了

(消息堵塞,最终导致系统超时),消费者拒绝再吃了,”鸡蛋“又丢失了,这个时候我们

放个篮子在它们中间,生产出来的鸡蛋都放到篮子里,消费者去篮子里拿鸡蛋,这样鸡蛋就                    不会丢失了,都在篮子里,而这个篮子就是”Kafka“。

鸡蛋其实就是“数据流”,系统之间的交互都是通过“数据流”来传输的(就是tcp、http

什么的),也称为报文,也叫“消息”。

消息队列满了,其实就是篮子满了,”鸡蛋“ 放不下了,那赶紧多放几个篮子,其实就是

Kafka 的扩容。Kafka 就是例子中的"篮子"。

Apache Kafka 与传统消息系统相比,有以下不同:

  1. 它是分布式系统,易于向外扩展;
  2. 它同时为发布和订阅提供高吞吐量;
  3. 它支持多订阅者,当失败时能自动平衡消费者;
  4. 它将消息持久化到磁盘,因此可用于批量消费,例如 ETL,以及实时应用程序

基本概念解释:

  • producer产者,就是它来生产“鸡蛋”的。
  • consumer消费者,生出的“鸡蛋”它来消费
  • topic:把它理解为标签,生产者每生产出来一个鸡蛋就贴上一个标签(topic),消费者                                                       可不是谁生产的“鸡蛋”都吃的,这样不同的生产者生产出来的“鸡蛋”,消费者就可                   以选择性的“吃”了。
  • broker就是篮子了

如果从技术角度,topic标签实际就是队列,生产者把所有“鸡蛋(消息)”都放到对应的队列里了,消费者到指定的队列里取。

猜你喜欢

转载自blog.csdn.net/qq_37050372/article/details/83024961