Hadoop生态圈-flume日志收集工具部署

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　目前为止，Hadoop的一个主流应用就是对于大规模web日志的分析和处理，因此想要把web服务的日志导入到Hadoop来进行分析就得借助日志收集工具了。目前主流的Hadoop日志收集工具能够跟Hadoop进行交接的有三个工具，即flume，scribe和chukwa。本篇博客的主角是Apache的flume。

一.主流日志收集工具简介

1>.flume

　　Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

　　Flume最早是Cloudera提供的日志收集系统，目前是Apache下的一个孵化项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。详情请参考：http://flume.apache.org/

2>.scribe

　　Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。

3>.chukwa

　　Apache 的开源项目 hadoop，作为一个分布式存储和计算系统，已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时，集群自身的相关信息如何收集和分析呢？针对这个问题， Apache 同样提出了相应的解决方案，那就是 chukwa。

　　chukwa 的官方网站是这样描述自己的： chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的，继承了 hadoop 的可伸缩性和健壮性。　Chukwa 还包含了一个强大和灵活的工具集，可用于展示、监控和分析已收集的数据。在一些网站上，甚至声称 chukwa 是一个“日志处理/分析的full stack solution”。说了这么多，你心动了吗？详情请参考：http://chukwa.apache.org/

二.Flume简介

三.

Hadoop生态圈-flume日志收集工具部署

猜你喜欢