大数据学习之路93-kafka简介

kafka是实时计算中用来做数据收集的，它是一个消息队列。它使用scala开发的。

那么我们就会想我们这里能不能用hdfs做数据存储呢？它是分布式的，高可用的。

但是它还缺少一些重要的功能：比如说我们往hdfs中写数据，之后我们需要实时的读取。当我们读到某一行的时候断掉了，假如说这个读取是消费者的消费，这样突然的宕机，重启之后就需要，重新读取之前的文件，可是这个文件我们之前已经读取了一部分。这样就会造成重复消费。

kafaka就会好一点，它有偏移量，我们消费到哪里，他就会记录到哪里。

所以kafka几乎是实时计算的标配，它就是用来做数据的暂时存储。

简单说明什么是Kafka:

举个例子，生产者消费者，生产者生产鸡蛋，消费者消费鸡蛋，生产者生产一个鸡蛋，消费者就消费一个鸡蛋，假设消费者消费鸡蛋的时候噎住了（系统宕机了），生产者还在生产鸡蛋，那新生产的鸡蛋就丢失了。再比如生产者很强劲（大交易量的情况），生产者1 秒钟生产100 个鸡蛋，消费者1 秒钟只能吃50 个鸡蛋，那要不了一会，消费者就吃不消了

（消息堵塞，最终导致系统超时），消费者拒绝再吃了，”鸡蛋“又丢失了，这个时候我们

放个篮子在它们中间，生产出来的鸡蛋都放到篮子里，消费者去篮子里拿鸡蛋，这样鸡蛋就不会丢失了，都在篮子里，而这个篮子就是”Kafka“。

鸡蛋其实就是“数据流”，系统之间的交互都是通过“数据流”来传输的（就是tcp、http

什么的），也称为报文，也叫“消息”。

消息队列满了，其实就是篮子满了，”鸡蛋“ 放不下了，那赶紧多放几个篮子，其实就是

Kafka 的扩容。Kafka 就是例子中的"篮子"。

Apache Kafka 与传统消息系统相比，有以下不同：

它是分布式系统，易于向外扩展；
它同时为发布和订阅提供高吞吐量；
它支持多订阅者，当失败时能自动平衡消费者；
它将消息持久化到磁盘，因此可用于批量消费，例如 ETL，以及实时应用程序

基本概念解释：

producer：生产者，就是它来生产“鸡蛋”的。
consumer：消费者，生出的“鸡蛋”它来消费。
topic：把它理解为标签，生产者每生产出来一个鸡蛋就贴上一个标签（topic），消费者可不是谁生产的“鸡蛋”都吃的，这样不同的生产者生产出来的“鸡蛋”，消费者就可以选择性的“吃”了。
broker：就是篮子了。

如果从技术角度，topic标签实际就是队列，生产者把所有“鸡蛋（消息）”都放到对应的队列里了，消费者到指定的队列里取。

大数据学习之路93-kafka简介

猜你喜欢