主流开源监控系统一览

减少故障有两个层面的意思，一个是做好常态预防，不让故障发生；另一个是如果故障发生，要能尽快止损，减少故障时长。而监控的典型作用，就是帮助我们发现及定位故障，这两个环节对于减少故障时长至关重要。

运维人员和研发人员是典型的关注稳定性的人，不过侧重点不同。一般来说，运维人员负责全公司所有业务的运维工作，研发人员只负责自己业务线的研发工作，所以发生故障的时候，运维人员更希望快速找到问题根因，及时止损。而研发人员，更希望能“自证清白”。不管出于何种目的，监控都是不可或缺的工具。

业务程序也有多种暴露方式，比较知名的埋点工具是 StatsD、Prometheus。当然，有些语言会有适合自己的更易用的埋点工具，比如 Java 生态的 Micrometer。业务程序除了指标埋点监控，通常还有更丰富的观测手段，比如引入链路追踪的框架：Zipkin、Jaeger、Skywalking 等。当然了，所有软件都可以使用日志的方式来暴露健康状况，不过这种方式最昂贵，数据非结构化，适合排查问题，但不适合作为指标数据的来源。

指标监控只能处理数字，但它的历史数据存储成本较低，实时性好，生态庞大，是可观测性领域里最重要的一根支柱。

另一个重要的可观测性支柱是日志。从日志中可以得到很多信息，对于了解软件的运行情况、业务的运营情况都很关键。比如操作系统的日志、接入层的日志、服务运行日志，都是重要的数据源。

可观测性最后一大支柱是链路追踪。随着微服务的普及，原本的单体应用被拆分成很多个小的服务，服务之间有错综复杂的调用关系，一个问题具体是哪个模块导致的，排查起来其实非常困难。

链路追踪的思路是以请求串联上下游模块，为每个请求生成一个随机字符串作为请求 ID。服务之间互相调用的时候，把这个 ID 逐层往下传递，每层分别耗费了多长时间，是否正常处理，都可以收集起来附到这个请求 ID 上。后面追查问题时，拿着请求 ID 就可以把串联的所有信息提取出来。

Zabbix 是一个企业级的开源解决方案，擅长设备、网络、中间件的监控。因为前几年使用的监控系统主要就是用来监控设备和中间件的，所以 Zabbix 在国内应用非常广泛。

Zabbix 的优点

对各种设备的兼容性较好，Agentd 不但可以在 Windows、Linux 上运行，也可以在 Aix 上运行。
架构简单，使用数据库做时序数据存储，易于维护，备份和转储都比较容易。
社区庞大，资料多。Zabbix 大概是 2012 年开源的，因为发展的时间比较久，在网上可以找到海量的资源。

Zabbix 的缺点

使用数据库做存储，无法水平扩展，容量有限。如果采集频率较高，比如 10 秒采集一次，上限大约可以监控 600 台设备，还需要把数据库部署在一个很高配的机器上，比如 SSD 或者 NVMe 的盘才可以。
Zabbix 面向资产的管理逻辑，监控指标的数据结构较为固化，没有灵活的标签设计，面对云原生架构下动态多变的环境，显得力不从心。

Open-Falcon 基于 RRDtool 做了一个分布式时序存储组件 Graph。这种做法可以把多台机器组成一个集群，大幅提升海量数据的处理能力。前面负责转发的组件是 Transfer，Transfer 对监控数据求取一个唯一 ID，再对 ID 做哈希，就可以生成监控数据和 Graph 实例的对应关系，这就是 Open-Falcon 架构中最核心的分片逻辑。

Open-Falcon 的优点

可以处理大规模监控场景，比 Zabbix 的容量要大得多，不仅可以处理设备、中间件层面的监控，也可以处理应用层面的监控，最终替换掉了小米内部的 perfcounter 和三套 Zabbix。
组件拆分得比较散，大都是用 Go 语言开发的，Web 部分是用 Python，易于做二次开发。

Open-Falcon 的缺点

生态不够庞大，是小米公司在主导，很多公司做了二次开发，但是都没有回馈社区，有一些贡献者，但数量相对较少。
开源软件的治理架构不够优秀，小米公司的核心开发人员离职，项目就停滞不前了，小米公司后续也没有大的治理投入，相比托管在基金会的项目，缺少了生命力。

Prometheus 就是为 Kubernetes 而生的。它针对 Kubernetes 做了直接的支持，提供了多种服务发现机制，大幅简化了 Kubernetes 的监控。

在 Kubernetes 环境下，Pod 创建和销毁非常频繁，监控指标生命周期大幅缩短，这导致类似 Zabbix 这种面向资产的监控系统力不从心，而且云原生环境下大都是微服务设计，服务数量变多，指标量也呈爆炸态势，这就对时序数据存储提出了非常高的要求。

Prometheus 的优点

对 Kubernetes 支持得很好，目前来看，Prometheus 就是 Kubernetes 监控的标配。
生态庞大，有各种各样的 Exporter，支持各种各样的时序库作为后端的 Backend 存储，也有很好的支持多种不同语言的 SDK，供业务代码嵌入埋点。

Prometheus 的缺点

易用性差一些，比如告警策略需要修改配置文件，协同起来比较麻烦。当然了，对于 IaC 落地较好的公司，反而认为这样更好，不过在国内当下的环境来看，还无法走得这么靠前，大家还是更喜欢用 Web 界面来查看监控数据、管理告警规则。
Exporter 参差不齐，通常是一个监控目标一个 Exporter，管理起来成本比较高。
容量问题，Prometheus 默认只提供单机时序库，集群方案需要依赖其他的时序库。

Nightingale 可以看做是 Open-Falcon 的一个延续，因为开发人员是一拨人，不过两个软件的定位截然不同，Kubernetes 环境下，Prometheus 已经大行其道，再重复造轮子意义不大，所以 Nightingale 的做法是和 Prometheus 做良好的整合，打造一个更完备的方案。当下的架构，主要是把 Prometheus 当成一个时序库，作为 Nightingale 的一个数据源。如果不使用 Prometheus 也没问题，比如使用 VictoriaMetrics 作为时序库，也是很多公司的选择。

Nightingale 的优点

有比较完备的 UI，有权限控制，产品功能比较完备，可以作为公司级统一的监控产品让所有团队共同使用。Prometheus 一般是每个团队自己用自己的，比较方便。如果一个公司用同一套 Prometheus 系统来解决监控需求会比较麻烦，容易出现我们上面说的协同问题，而 Nightingale 在协同方面做得相对好一些。
兼容并包，设计上比较开放，支持对接 Categraf、Telegraf、Grafana-Agent、Datadog-Agent 等采集器，还有 Prometheus 生态的各种 Exporter，时序库支持对接 Prometheus、VictoriaMetrics、M3DB、Thanos 等。

Nightingale 的缺点

考虑到机房网络割裂问题，告警引擎单独拆出一个模块下沉部署到各个机房，但是很多中小公司无需这么复杂的架构，部署维护起来比较麻烦。
告警事件发送缺少聚合降噪收敛逻辑，官方的解释是未来会单独做一个事件中心的产品，支持 Nightingale、Zabbix、Prometheus 等多种数据源的告警事件，但目前还没有放出。

每种方案各有优缺点，如果你的主要需求是监控设备，推荐你使用 Zabbix；如果你的主要需求是监控 Kubernetes，可以选择 Prometheus+Grafana；如果你既要兼顾传统设备、中间件监控场景，又要兼顾 Kubernetes，做成公司级方案，推荐你使用 Nightingale。

此文章为7月Day27学习笔记，内容来源于极客时间《运维监控系统实战笔记》，推荐该课程。

主流开源监控系统一览

猜你喜欢