flume复习(二)

一、简介:flume是一种分布式、可靠且可用的系统,能够用于有效的从不同的源收集、聚合和移动大量的日志数据到集中式数据存储。它具有基于流数据的简单灵活的架构,它具有健壮的可靠性机制和许多故障转移和恢复机制,具有强大的容错性,使用简单的可扩展的数据模型,允许在线分析的应用程序。flume不仅能用于日志数据的收集。由于数据源是可以指定的,因此flume可用于传输大量事件数据,包括但是不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据源

   1.flume架构图如下:

  

  2.flume event:一个flume事件被定义为一个具有字节有效负载和可选字符串属性集的数据流单元。一个Flume agent是一个进程,承载事件从外部源流向下一个目标(跃点)的组件。

  3.Source:是Agent的一个组件, 从数据生成器接收数据,然后将数据以flume事件的形式传递到一个或多个channel中

  4.Chennel:是一个临时缓冲区,从source接收flume events(flume事件),并且缓冲它们直到它们被sink消费。在源和sink之间扮演桥梁的角色。这些channel是完全事务性的,可以跟许多source和sink协同。如JDBC通道、文件系统通道、内存通道等等。

  5.Sink:存放数据到中央化存储,如HBase或者HDFS,它从channel中消费数据(event)并且将其传递到目的地,sink的目的地可能是另外一个sink或者一个中央化存储。

猜你喜欢

转载自www.cnblogs.com/bigdata-stone/p/10660149.html