1. 概述

什么是flume?

Flume是一种分布式，可靠且可用的服务，用于高效地收集，汇总和移动大量日志数据。它具有基于流式数据流的简单而灵活的架构。它具有可靠的可靠性机制以及许多故障转移和恢复机制，具有强大的容错性和容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。

Flume特性

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中

一般的采集需求，通过对flume的简单配置即可实现

u Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

2. Flume的一些核心概念

Client：Client生产数据，运行在一个独立的线程。

Event：一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）
Flow： Event从源点到达目的点的迁移的抽象。
Agent：一个独立的Flume进程，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含

　　　　　　多个sources和sinks。）
Source：消费web系统这样的外部数据源中的数据（一般就是web系统产生的日志），外部数据源会向flume发送某种能被flume识别的格式的事件，有以下几种类型：avro 、exec、jms、spooling directory source、kafka、netcat等
Channel：当flume source从外部source读取到数据的时候，flume会将数据先存放在一个或多个channel中，这些数据将会一直被存放在channel中直到它被sink消费了为止，channel的主要类型有：memory、jdbc、kafka、file等
Sink：消费channel中的数据，然后将其存放进外部持久化的文件系统中，Sink的类型主要有HDFS、Hive、Avro、File Roll、kafka、HBase、ElasticSearch

Agent结构　　

Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具，含有三个核心组件，分别是

source、 channel、 sink。通过这些组件， Event 可以从一个地方流向另一个地方，如下图所示。

source

Source是数据的收集端，负责将数据捕获后进行特殊的格式化，将数据封装到事件（event）里，然后将事件推入Channel中。 Flume提供了很多内置的

Source，支持 Avro， log4j， syslog 和 http post(body为json格式)。可以让应用程序同已有的Source直接打交道，如AvroSource，

SyslogTcpSource。如果内置的Source无法满足需要， Flume还支持自定义Source。

Channel

Channel是连接Source和Sink的组件，大家可以将它看做一个数据的缓冲区（数据队列），它可以将事件暂存到内存中也可以持久化到本地磁盘上，直
　　到Sink处理完该事件。介绍两个较为常用的Channel， MemoryChannel和FileChannel。

Sink

Sink从Channel中取出事件，然后将数据发到别处，可以向文件系统、数据库、 hadoop存数据，也可以是其他agent的Source。在日志数据较少时，可

　　以将数据存储在文件系统中，并且设定一定的时间间隔保存数据。

3. Flume原理

3.1.1. 简单结构

单个agent采集数据

3.1.2. 复杂结构

多级agent之间串联

4. Flume实战案例

友情建议：学会从官网上学习不同装置下的配置文件的书写

Flume的安装部署

1、Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境

上传安装包到数据源所在节点上

然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz

然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME

Which java 查找java的目录

把flume-env.sh.template修改为flume-env.sh

创建一个文件夹用户保存自己以后的采集方案和配置文件

2、根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)

3、指定采集方案配置文件，在相应的节点上启动flume agent

先用一个最简单的例子来测试一下程序环境是否正常

采集方案

1、先在flume的conf目录下新建一个配置文件（采集方案）

vi netcat-logger.properties

# 定义这个agent中各组件的名字

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# 描述和配置source组件：r1

a1.sources.r1.type = netcat

a1.sources.r1.bind = localhost

a1.sources.r1.port = 44444

# 描述和配置sink组件：k1

a1.sinks.k1.type = logger

# 描述和配置channel组件，此处使用是内存缓存的方式

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

# 描述和配置source channel sink之间的连接关系

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

启动agent去采集数据

Bin ./flume-ng agent -c conf -f myconf/netcat-logger.properties -n a1 -Dflume.root.logger=INFO,console

启动命令注意事项

Ø -c conf 指定flume自身的配置文件所在目录//不能改变

Ø 注意：-f后目录要看实在哪里运行只在bin目录中还是在flume首页中

Ø -f conf/netcat-logger.conf 指定我们所描述的采集方案

Ø -n a1 指定我们这个agent的名字，你的采集方案里面agent的名字是什么，启动指令里面必须写什么，要一直。

2、测试

先要往agent的source所监听的端口上发送数据，让agent有数据可采

随便在一个能跟agent节点联网的机器上

telnet anget-hostname port （telnet localhost 44444）

采集案例

4.1.1. 采集目录到HDFS

结构示意图：

采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去

根据需求，首先定义以下3大要素

l 数据源组件，即source ——监控文件目录 : spooldir

spooldir特性：

1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容

2、采集完成的文件，会被agent自动添加一个后缀：COMPLETED

3、所监视的目录中不允许重复出现相同文件名的文件

l 下沉组件，即sink——HDFS文件系统 : hdfs sink

l 通道组件，即channel——可用file channel 也可以用内存channel

配置文件编写：

#定义三大组件的名称

agent1.sources = source1

agent1.sinks = sink1

agent1.channels = channel1

# 配置source组件

agent1.sources.source1.type = spooldir

agent1.sources.source1.spoolDir = /root/hdftest/

agent1.sources.source1.fileHeader = false

#配置拦截器

agent1.sources.source1.interceptors = i1

agent1.sources.source1.interceptors.i1.type = host

agent1.sources.source1.interceptors.i1.hostHeader = hostname

# 配置sink组件

agent1.sinks.sink1.type = hdfs

agent1.sinks.sink1.hdfs.path =hdfs://wangzhihua1:9000/weblog/flume-collection/%y-%m-%d/%H-%M

agent1.sinks.sink1.hdfs.filePrefix = access_log

agent1.sinks.sink1.hdfs.maxOpenFiles = 5000

agent1.sinks.sink1.hdfs.batchSize= 100

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.writeFormat =Text

agent1.sinks.sink1.hdfs.rollSize = 102400

agent1.sinks.sink1.hdfs.rollCount = 1000000

agent1.sinks.sink1.hdfs.rollInterval = 60

#agent1.sinks.sink1.hdfs.round = true

#agent1.sinks.sink1.hdfs.roundValue = 10

#agent1.sinks.sink1.hdfs.roundUnit = minute

agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory

agent1.channels.channel1.type = memory

agent1.channels.channel1.keep-alive = 120

agent1.channels.channel1.capacity = 500000

agent1.channels.channel1.transactionCapacity = 600

# Bind the source and sink to the channel

agent1.sources.source1.channels = channel1

agent1.sinks.sink1.channel = channel1

Channel参数解释：

capacity：默认该通道中最大的可以存储的event数量

trasactionCapacity：每次最大可以从source中拿到或者送到sink中的event数量

keep-alive：event添加到通道中或者移出的允许时间

4.1.1.1. 执行flume：

4.1.2. 采集文件到HDFS

采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs

根据需求，首先定义以下3大要素

l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’

l 下沉目标，即sink——HDFS文件系统 : hdfs sink

l Source和sink之间的传递通道——channel，可用file channel 也可以用内存channel

配置文件编写：

agent1.sources = source1

agent1.sinks = sink1

agent1.channels = channel1

# Describe/configure tail -F source1

agent1.sources.source1.type = exec

agent1.sources.source1.command = tail -F /home/hadoop/logs/access_log

agent1.sources.source1.channels = channel1

#configure host for source

agent1.sources.source1.interceptors = i1

agent1.sources.source1.interceptors.i1.type = host

agent1.sources.source1.interceptors.i1.hostHeader = hostname

# Describe sink1

agent1.sinks.sink1.type = hdfs

#a1.sinks.k1.channel = c1

agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M

agent1.sinks.sink1.hdfs.filePrefix = access_log

agent1.sinks.sink1.hdfs.maxOpenFiles = 5000

agent1.sinks.sink1.hdfs.batchSize= 100

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.writeFormat =Text

agent1.sinks.sink1.hdfs.rollSize = 102400

agent1.sinks.sink1.hdfs.rollCount = 1000000

agent1.sinks.sink1.hdfs.rollInterval = 60

agent1.sinks.sink1.hdfs.round = true

agent1.sinks.sink1.hdfs.roundValue = 10

agent1.sinks.sink1.hdfs.roundUnit = minute

agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory

agent1.channels.channel1.type = memory

agent1.channels.channel1.keep-alive = 120

agent1.channels.channel1.capacity = 500000

agent1.channels.channel1.transactionCapacity = 600

# Bind the source and sink to the channel

agent1.sources.source1.channels = channel1

agent1.sinks.sink1.channel = channel1

5. Flume实战采集文件内容存入HDFS

1、flume安装目录下新建文件夹 myconf

2、在myconf 下新建文件

log-hdfs.conf

内容如下：

主要使用了

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

#exec 指的是命令

# Describe/configure the source

a1.sources.r1.type = exec

#F根据文件名追中, f根据文件的nodeid追中

a1.sources.r1.command = tail -F /root/testflume.log

a1.sources.r1.channels = c1

# Describe the sink

#下沉目标

a1.sinks.k1.type = hdfs

a1.sinks.k1.channel = c1

#指定目录, flum帮做目的替换

a1.sinks.k1.hdfs.path = hdfs://hdp-node-01:9000/flume/events/%y-%m-%d/%H%M/

#文件的命名, 前缀

a1.sinks.k1.hdfs.filePrefix = events-

#10 分钟就改目录（创建目录），（这些参数影响/flume/events/%y-%m-%d/%H%M/）

a1.sinks.k1.hdfs.round = true

a1.sinks.k1.hdfs.roundValue = 10

a1.sinks.k1.hdfs.roundUnit = minute

#目录里面有文件

#------start----两个条件，只要符合其中一个就满足---

#文件滚动之前的等待时间(秒)

a1.sinks.k1.hdfs.rollInterval = 3

#文件滚动的大小限制(bytes)

a1.sinks.k1.hdfs.rollSize = 500

#写入多少个event数据后滚动文件(事件个数)

a1.sinks.k1.hdfs.rollCount = 20

#-------end-----

#5个事件就往里面写入

a1.sinks.k1.hdfs.batchSize = 5

#用本地时间格式化目录

a1.sinks.k1.hdfs.useLocalTimeStamp = true

#下沉后, 生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本

a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

3、shell命令不断写数据到文件

[hadoop@nbdo3 testdata]$ while true; do echo "hello ningbo do" >> testflume.log ; sleep 2; done

4、在新窗口用tail 命令查看到 testflume.log文件内容不断增加

[hadoop@nbdo3 testdata]$ tail -f testflume.log
hello ningbo do
hello ningbo do
hello ningbo do
5、启动hadoop

6、启动flume

bin/flume-ng agent -c conf -f myconf/log.conf -n a1 -Dflume.root.logger=INFO,console

flume 的安装与使用

1. 概述

什么是flume?

Flume特性

2. Flume的一些核心概念

Agent结构

source

Channel

Sink

3.1.1. 简单结构

3.1.2. 复杂结构

4. Flume实战案例

Flume的安装部署

采集方案

启动agent去采集数据

启动命令注意事项

采集案例

4.1.1. 采集目录到HDFS

4.1.1.1. 执行flume：

4.1.2. 采集文件到HDFS

5. Flume实战采集文件内容存入HDFS

猜你喜欢