大数据中的kafka,概念和如何学习你都了解吗?

       IT行业的新贵如今花落大数据家,不论是各个行业对于大数据的追捧,还是转型者纷纷入行,都在表明大数据是一个时代发展的趋势。对于大数据不断的了解,我们不难发现kafka说扮演的角色越来越重要,那么对于kafka的概念以及如何学习你都了解吗?


       首先,我们简单的了解下kafka的特点及其概念

       kafka是用于构建实时数据管道和流应用程序。具有横向扩展,容错,wicked fast(变态快)等优点,并已在成千上万家公司运行,尤其是一些大企业,纷纷利用kafka来促进自身大数据的建设,对于kafka的概念可以简单的解释为消息中间件的一种,至于什么是中间件,我们可以举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1秒钟生产100个鸡蛋,消费者1秒钟只能吃50个鸡蛋,那要不了一会,消费者就吃不消了(消息堵塞,最终导致系统超时),消费者拒绝再吃了,”鸡蛋“又丢失了,这个时候我们放个篮子在它们中间,生产出来的鸡蛋都放到篮子里,消费者去篮子里拿鸡蛋,这样鸡蛋就不会丢失了,都在篮子里,而这个篮子就是“kafka”,也就是中间节。鸡蛋其实就是“数据流”,系统之间的交互都是通过“数据流”来传输的(就是tcp、http什么的),也称为报文,也叫“消息”。消息队列满了,其实就是篮子满了,”鸡蛋“ 放不下了,那赶紧多放几个篮子,其实就是kafka的扩容,kafka就是成为了一个中间件。

       其次,为什么Kafka这么流行

       最主要的原因是Kafka具有极佳的性能表现。它非常稳定,能提供稳定的持久化,具有灵活的订阅-发布消息队列,可与N个消费者群组进行良好扩展,具有强大的复制功能,为生产者提供可调整的一致性保证,并在碎片级别提供保留排序(即Kafka主题分区)。其次,Kafka可以很好地兼容需要数据流处理的系统,并将这些系统融合、转换并加载到其他存储。另外,Kafka操作(配置和使用)都非常简单,而且Kafka的工作原理也很好理解。当然了,如果Kafka处理数据很慢,有再多其他优点都是没有意义的,所以,“多快好省”就是Kafka的最大优势。

       最后,我们来了解如何学习kafka

       其实,与学习其他IT技能一样,先理解概念,在进行实操,最为主要的就是需要掌握以下几个点:

       1、kafka节点之间如何复制备份的?

       2、kafka消息是否会丢失?为什么?

       3、kafka最合理的配置是什么?

       4、kafka的leader选举机制是什么?

       5、kafka对硬件的配置有什么要求?

       6、kafka的消息保证有几种方式?

       当然,kafka的知识并不仅仅只有这些,此处只是简单的为大家罗列一下比较重要的点,求学者,还应该在实践中去深刻的掌握大数据的相关知识点。

       大数据越来越火热,学习大数据开发的人也越来越多,而面对着大数据相对驳杂的知识点,求学者一定要静下心来,一步步、按部就班的教学学习,这样,才能够真正的掌握大数据,成为该行业的大牛。

本文转自:海牛学院


猜你喜欢

转载自blog.csdn.net/hainiubuluo/article/details/80856985