Flume学习 day01

今天，我开始了Flume的学习。学习了Flume的简介、Flume的特点、组件核心概念、拦截器-数据流-可靠性、使用场景、数据传输过程、Flume-1.7-安装、telnet-安装、Flume-telnet-案例、Flume-文件-案例、Flume-文件夹-案例、双层Flume一对二案例、双层Flume-二对一案例、了解更多组件。
总结一下：
1.Flume简介
Flume作为Cloudera开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume初始的发行版本目前被统称为Flume OG（original generation），属于Cloudera。
但随着Flume功能的扩展，Flume OG代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在Flume OG的最后一个发行版本0.9.4.中，日志传输不稳定的现象尤为严重，为了解决这些问题，2011年10月22号，cloudera完成了Flume-728，对Flume进行了里程碑式的改动：重构核心组件、核心配置以及代码架构，重构后的版本统称为Flume NG（next generation）；改动的另一原因是将Flume纳入apache旗下，cloudera Flume改名为Apache Flume。
Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。
Flume基于流式架构，容错性强，也很灵活简单。
Flume、Kafka用来实时进行数据收集，Spark、Storm用来实时处理数据，impala用来实时查询。
2.Flume特点
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方（比如文本、HDFS、Hbase等）的能力。
Flume的数据流由事件（Event）贯穿始终。事件是Flume的基本数据单位，它携带日志数据（字节数组形式）并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后，会进行特定的格式化，然后Source会把事件推入（单个或多个）Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。
Sink负责持久化日志或者把事件推向另一个Source。
1）Flume的可靠性
当节点出现故障时，日志能够被传送到其它节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为end-to-end（收到数据，agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。）
Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送）
Besteffort（数据发送到接收方后，不会进行确认）。
2）Flume的可恢复性
还是靠Channel。推荐使用FileChannel，事件持久化在本地文件系统里（性能较差）。
3.Flume的一些核心概念
Client：Client生产数据，运行在一个独立的线程。
Event：一个数据单元，消息头和消息体组成。（Events可以是日志记录、avro对象等。）
Flow：Event从源点到达目的点的迁移的抽象。
Agent：一个独立的Flume进程，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources、Channels、sinks）
Source：数据收集组件。（source从Client收集数据，传递给Channel）
Channel：中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接sources和sinks，这个有点像一个队列。）
Sink：从Channel中读取并移除Event，将Event传递到FlowPipeline中的下一个Agent（如果有的话）。（Sink从Channel收集数据，运行在一个独立线程。）
4.Flume拦截器、数据流以及可靠性
1、Flume拦截器
当我们需要对数据进行过滤时，除了我们在Source、Channel和Sink进行代码修改之外， Flume为我们提供了拦截器，拦截器也是chain形式的。
拦截器的位置在Source和Channel之间，当我们为Source指定拦截器后，我们在拦截器中会得到event，根据需求我们可以对event进行保留还是抛弃，抛弃的数据不会进入Channel中。
2、Flume数据流
1）Flume的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。
2） Flume传输的数据的基本单位是Event，如果是文本文件，通常是一行记录，这也是事务的基本单位。Event从Source，流向Channel，再到Sink，本身为一个byte数组，并可携带headers信息。Event代表着一个数据流的最小完整单元，从外部数据源来，向外部的目的地去。
值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source，Channel和Sink可以自由组合。组合方式基于用户设置的配置文件，非常灵活。
比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可以把日志写入HDFS，HBase，甚至是另外一个Source等等。Flume支持用户建立多级流，也就是说，多个agent可以协同工作，并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes，这也正是Flume强大之处。
3、Flume可靠性
Flume使用事务性的方式，保证传送Event整个过程的可靠性。Sink必须在Event被存入Channel后，或者已经被传达到下一站agent里，又或者已经被存入外部数据目的地之后，才能把Event从Channel中remove掉。这样数据流里的event无论是在一个agent里还是多个agent之间流转，都能保证可靠，因为以上的事务保证了event会被成功存储起来。比如Flume支持在本地保存一份文件File Channel作为备份，而Memory Channel将event存在内存queue里，速度快，但丢失的话无法恢复。
5.Flume核心组件
Flume主要由3个重要的组件构成
1）Source：完成对日志数据的收集，分成transtion和event打入到channel之中，Flume提供了各种source的实现，包括Avro Source、Exce Source、Spooling Directory Source、NetCat Source、Syslog Source、Syslog TCP Source、Syslog UDP Source、HTTP Source、HDFS Source，etc。
2）Channel：Flume Channel主要提供一个队列的功能，对source提供中的数据进行简单的缓存。 Flume对于Channel，则提供了Memory Channel、JDBC Chanel、File Channel，etc。
3）Sink：Flume Sink取出Channel中的数据，进行相应的存储文件系统，数据库，或者提交到远程服务器。包括HDFS sink、Logger sink、Avro sink、File Roll sink、Null sink、HBasesink，etc。
6.Flume传输过程
source监控某个文件或数据流，数据源产生新的数据，拿到该数据后，将数据封装在一个Event中，并put到channel后commit提交，channel队列先进先出，sink去channel队列中拉取数据，然后写入到HDFS中。

猜你喜欢