【图文详细 】Flume 数据采集组件——概述

版权声明:版权声明:本文为博主原创文章,转载请附上博文链接! https://blog.csdn.net/qq_42246689/article/details/84898369

3、Flume 概述

3.1、Flume 概念 
Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

Flume 是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送 方,用于收集数据,同时,Flume 提供对数据的简单处理,并写到各种数据接收方的能力。


1、 Apache Flume 是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,和 Sqoop 同属于数据采集系统组件,但是 Sqoop 用来采集关系型数据库数据,而 Flume 用 来采集流动型数据。 
 
2、 Flume 名字来源于原始的近乎实时的日志数据采集工具,现在被广泛用于任何流事件数 据的采集,它支持从很多数据源聚合数据到 HDFS。 
 
3、 一般的采集需求,通过对 flume 的简单配置即可实现。Flume 针对特殊场景也具备良好 的自定义扩展能力,因此,flume 可以适用于大部分的日常数据采集场景 
 
4、 Flume 最初由 Cloudera 开发,在 2011 年贡献给了 Apache 基金会,2012 年变成了 Apache 的顶级项目。Flume OG(Original Generation)是 Flume 最初版本,后升级换代成 Flume NG(Next/New Generation) 
 
5、 Flume 的优势:可横向扩展、延展性、可靠性 

3.2、Flume 版本介绍 
Flume 在 0.9.x and 1.x 之间有较大的架构调整:

1.x 版本之后的改称 Flume NG

0.9.x 版本称为 Flume OG,最后一个版本是 0.94,之后是由 Apache 进行了重构 N 和 O 的意思就是 new 和 old 的意思! 

官网文档:http://flume.apache.org/FlumeUserGuide.html 

3.3、Flume 数据源和输出方式 
Flume 提供了从 console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog 日 志系统,支持 TCP 和 UDP 等 2 种模式),exec(命令执行)等数据源上收集数据的能力,在我们 的系统中目前使用 exec 方式进行日志采集。 
 
Flume 的数据接受方,可以是 console(控制台)、text(文件)、dfs(HDFS 文件)、RPC(Thrift-RPC) 和 syslogTCP(TCP syslog 日志系统)等。最常用的是 Kafka 

猜你喜欢

转载自blog.csdn.net/qq_42246689/article/details/84898369