运维平台之应用日志解决方案--ELK

开源实时日志分析ELK平台能够完美的解决我们上述的问题，ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成：
1）ElasticSearch是一个基于Lucene的开源分布式搜索服务器。它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二流行的企业搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。
在elasticsearch中，所有节点的数据是均等的。
2）Logstash是一个完全开源的工具，它可以对你的日志进行收集、过滤、分析，支持大量的数据获取方法，并将其存储供以后使用（如搜索）。说到搜索，logstash带有一个web界面，搜索和展示所有日志。一般工作方式为c/s架构，client端安装在需要收集日志的主机上，server端负责将收到的各节点日志进行过滤、修改等操作在一并发往elasticsearch上去。
3）Kibana 是一个基于浏览器页面的Elasticsearch前端展示工具，也是一个开源和免费的工具，Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以帮助您汇总、分析和搜索重要数据日志。

为什么要用到ELK？
一般我们需要进行日志分析场景是：直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中，此方法效率低下，面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理，所有服务器上的日志收集汇总。常见解决思路是建立集中式日志收集系统，将所有节点上的日志统一收集，管理，访问。
一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率。

一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率。
一个完整的集中式日志系统，需要包含以下几个主要特点：
1）收集－能够采集多种来源的日志数据
2）传输－能够稳定的把日志数据传输到中央系统
3）存储－如何存储日志数据
4）分析－可以支持 UI 分析
5）警告－能够提供错误报告，监控机制

ELK提供了一整套解决方案，并且都是开源软件，之间互相配合使用，完美衔接，高效的满足了很多场合的应用。目前主流的一种日志系统。

ELK整体方案

ELK中的三个系统分别扮演不同的角色，组成了一个整体的解决方案。Logstash是一个ETL工具，负责从每台机器抓取日志数据，对数据进行格式转换和处理后，输出到Elasticsearch中存储。Elasticsearch是一个分布式搜索引擎和分析引擎，用于数据存储，可提供实时的数据查询。Kibana是一个数据可视化服务，根据用户的操作从Elasticsearch中查询数据，形成相应的分析结果，以图表的形式展现给用户。
ELK的安装很简单，可以按照"下载->修改配置文件->启动"方法分别部署三个系统，也可以使用docker来快速部署。具体的安装方法这里不详细介绍，下面来看一个常见的部署方案，如下图所示，部署思路是：
1）在每台生成日志文件的机器上，部署Logstash，作为Shipper的角色，负责从日志文件中提取数据，但是不做任何处理，直接将数据输出到Redis队列(list)中；
2）需要一台机器部署Logstash，作为Indexer的角色，负责从Redis中取出数据，对数据进行格式化和相关处理后，输出到Elasticsearch中存储；
3）部署Elasticsearch集群，当然取决于你的数据量了，数据量小的话可以使用单台服务，如果做集群的话，最好是有3个以上节点，同时还需要部署相关的监控插件；
4）部署Kibana服务，提供Web服务。

在前期部署阶段，主要工作是Logstash节点和Elasticsearch集群的部署，而在后期使用阶段，主要工作就是Elasticsearch集群的监控和使用Kibana来检索、分析日志数据了，当然也可以直接编写程序来消费Elasticsearch中的数据。

在上面的部署方案中，我们将Logstash分为Shipper和Indexer两种角色来完成不同的工作，中间通过Redis做数据管道，为什么要这样做？为什么不是直接在每台机器上使用Logstash提取数据、处理、存入Elasticsearch？

首先，采用这样的架构部署，有三点优势：第一，降低对日志所在机器的影响，这些机器上一般都部署着反向代理或应用服务，本身负载就很重了，所以尽可能的在这些机器上少做事；第二，如果有很多台机器需要做日志收集，那么让每台机器都向Elasticsearch持续写入数据，必然会对Elasticsearch造成压力，因此需要对数据进行缓冲，同时，这样的缓冲也可以一定程度的保护数据不丢失；第三，将日志数据的格式化与处理放到Indexer中统一做，可以在一处修改代码、部署，避免需要到多台机器上去修改配置。

其次，我们需要做的是将数据放入一个消息队列中进行缓冲，所以Redis只是其中一个选择，也可以是RabbitMQ、Kafka等等，在实际生产中，Redis与Kafka用的比较多。由于Redis集群一般都是通过key来做分片，无法对list类型做集群，在数据量大的时候必然不合适了，而Kafka天生就是分布式的消息队列系统。

ELK在大数据运维系统中的应用

在海量日志系统的运维中，以下几个方面是必不可少的：

分布式日志数据集中式查询和管理
系统监控，包含系统硬件和应用各个组件的监控
故障排查
安全信息和事件管理
报表功能

ELK组件各个功能模块如图5所示，它运行于分布式系统之上，通过搜集、过滤、传输、储存，对海量系统和组件日志进行集中管理和准实时搜索、分析，使用搜索、监控、事件消息和报表等简单易用的功能，帮助运维人员进行线上业务的准实时监控、业务异常时及时定位原因、排除故障、程序研发时跟踪分析Bug、业务趋势分析、安全与合规审计，深度挖掘日志的大数据价值。同时Elasticsearch提供多种API（REST JAVA PYTHON等API）供用户扩展开发，以满足其不同需求。

汇总ELK组件在大数据运维系统中，主要可解决的问题如下：

日志查询，问题排查，上线检查
服务器监控，应用监控，错误报警，Bug管理
性能分析，用户行为分析，安全漏洞分析，时间管理

综上，ELK组件在大数据运维中的应用是一套必不可少的且方便、易用的开源解决方案。

ELK实战举例一

通过ELK组件对Spark作业运行状态监控，搜集Spark环境下运行的日志。经过筛选、过滤并存储可用信息，从而完成对Spark作业运行和完成状态进行监控，实时掌握集群状态，了解作业完成情况，并生成报表，方便运维人员监控和查看。

数据来源可以是各式各样的日志，Logstash配置文件有三个主要模块：input()输入或者说收集数据，定义数据来源；filter()对数据进行过滤，分析等操作；output()输出。input plugin目前支持将近50种，如下表所示：

Beats	couchdb_changes	Xmpp	eventlog	exec	s3	file	ganglia	gelf
Github	Heartbeat	Heroku	http	Sqs	Irc	imap	jdbc	JMX
lumberjack	varnishlog	Pipe	snmptrap	generator	Rss	rackspace	RabbitMQ	Redis
Sqlite	Elasticsearch	http_poller	Stomp	syslog	TCP	Twitter	unix	UDP
websocket	drupal_dblog	Zenoss	ZeroMQ	Graphite	Log4j	stdin	wmi	relp
Kafka	puppet_facter	Meetup

数据源搜集到后，然后通过filter过滤形成固定的数据格式。目前支持过滤的类JSON、grep、grok、geoip等,最后output到数据库，比如Redis、Kafka或者直接传送给Elasticsearch。当数据被存储于Elasticsearch之后，用户可以使用Elasticsearch所提供API来检索信息数据了，如通过REST API执行CURL GET请求搜索指定数据。用户也可以使用Kibana进行可视化的数据浏览。另外Kibana有时间过滤功能，运维人员可对某一时间段内数据查询并查看报表，方便快捷。

ELK实战举例二

通过ELK组件对系统资源状态监控，如图7、图8所示，是笔者前段时间使用ELK组件为集群提供日志查询和系统资源监控的例子。通过各类日志搜集，分析，过滤，存储并通过Kibana展现给用户，供用户实时监控系统资源、节点状态、磁盘、CPU、MEM，以及错误、警告信息等。

ELK实战举例三，通过ELK组件对系统负载状态监控，

ELK实战举例四

通过ELK组件对系统日志管理和故障排查，如图10所示。用户可根据故障发生时间段集中查询相关日志，可通过搜索、筛选、过滤等功能，快速定位问题，从而排查故障。另外，通过对各个应用组件的日志过滤，可快速列举出各个应用对应节点上的Error或Warning日志，从而对故障排查或者对发现产品bug提供快捷途径。

https://www.cnblogs.com/kevingrace/p/5919021.html