Flume简介及部署、测试

一、Flume简介

  • 1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。
  • 2) Flume基于流式架构,容错性强,也很灵活简单。
  • 3) Flume、Kafka用来实时进行数据收集,Spark、Storm用来实时处理数据,impala用来实时查询。

二、Flume角色

Flume基本组成

2.1、Source

用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel,这个有点类似于Java IO部分的Channel。

2.2、Channel (通道)

用于桥接Sources和Sinks,类似于一个队列。

2.3、Sink

从Channel收集数据,将数据写到目标源(可以是下一个Source,也可以是HDFS或者HBase)。

2.4、Event

传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。

三、Flume传输过程

source监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个Event中,并put到channel后commit提交,channel队列先进先出,sink去channel队列中拉取数据,然后写入到HDFS中。

四、Flume安装部署

注意:本人是在之前的sqoop镜像基础上安装的,flume只强依赖JDK,但是后面需要Flume输出到HIVE或者HDFS或者Kafka,所以整个大数据相关的东西都是在之前的镜像基础上构建新的镜像,由最开始的Hadoop->Hive->sqoop->flume

1、上传apache-flume-1.7.0-bin.tar.gz到hadoop0的/opt/module

$ scp -r apache-flume-1.7.0-bin.tar.gz hadoop0:/opt/module

2、进入容器hadoop0,解压flume的压缩包

$ tar -zxvf apache-flume-1.7.0-bin.tar.gz

3、进入flume的conf目录,重命名默认配置文件

mv flume-env.sh.templet flume-env.sh

4、修改flume-env.sh

扫描二维码关注公众号,回复: 2153987 查看本文章
export JAVA_HOME=/opt/module/jdk1.8

至此,flume已经配置完成,接下来我们可以做个简单的端口监控测试!

五、Flume简单测试-监控端口数据

目标:Flume监控一端Console,另一端Console发送消息,使被监控端实时显示。
分步实现:

1) 安装telnet工具

2)Flume目录下创建jobs目录,用于Flume相关job的配置文件,创建Flume Agent配置文件flume-telnet.conf

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

3) 判断44444端口是否被占用

$ netstat -tunlp | grep 44444

4) 先开启flume先听端口

$ bin/flume-ng agent --conf conf/ --name a1 --conf-file jobs/flume-telnet.conf -Dflume.root.logger==INFO,console

5) 使用telnet工具向本机的44444端口发送内容

$ telnet localhost 44444

更多Flume用法举例,在这就不一一详细列举了可以去官网http://flume.apache.org/FlumeUserGuide.html查询,比如监听读取本地文件写到HDFS中,以及Flume之间的数据传递。

猜你喜欢

转载自blog.csdn.net/u012834750/article/details/80817537
今日推荐