【图文详细】Flume 数据采集组件——概述

3、Flume 概述

3.1、Flume 概念
Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

Flume 是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据，同时，Flume 提供对数据的简单处理，并写到各种数据接收方的能力。

1、 Apache Flume 是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统，和 Sqoop 同属于数据采集系统组件，但是 Sqoop 用来采集关系型数据库数据，而 Flume 用来采集流动型数据。

2、 Flume 名字来源于原始的近乎实时的日志数据采集工具，现在被广泛用于任何流事件数据的采集，它支持从很多数据源聚合数据到 HDFS。

3、一般的采集需求，通过对 flume 的简单配置即可实现。Flume 针对特殊场景也具备良好的自定义扩展能力，因此，flume 可以适用于大部分的日常数据采集场景

4、 Flume 最初由 Cloudera 开发，在 2011 年贡献给了 Apache 基金会，2012 年变成了 Apache 的顶级项目。Flume OG（Original Generation）是 Flume 最初版本，后升级换代成 Flume NG（Next/New Generation）

5、 Flume 的优势：可横向扩展、延展性、可靠性

3.2、Flume 版本介绍
Flume 在 0.9.x and 1.x 之间有较大的架构调整：

1.x 版本之后的改称 Flume NG

0.9.x 版本称为 Flume OG，最后一个版本是 0.94，之后是由 Apache 进行了重构 N 和 O 的意思就是 new 和 old 的意思！

官网文档：http://flume.apache.org/FlumeUserGuide.html

3.3、Flume 数据源和输出方式
Flume 提供了从 console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog 日志系统，支持 TCP 和 UDP 等 2 种模式)，exec(命令执行)等数据源上收集数据的能力，在我们的系统中目前使用 exec 方式进行日志采集。

Flume 的数据接受方，可以是 console(控制台)、text(文件)、dfs(HDFS 文件)、RPC(Thrift-RPC) 和 syslogTCP(TCP syslog 日志系统)等。最常用的是 Kafka

【图文详细 】Flume 数据采集组件——概述

3、Flume 概述

猜你喜欢

【图文详细】Flume 数据采集组件——概述