（一）概述（概念、组件、架构、适用场景） | 普罗米修斯（Prometheus）

什么是普罗米修斯？

Prometheus是一个开源系统监控和警报工具包，最初在 SoundCloud构建。自 2012 年成立以来，许多公司和组织都采用了 Prometheus，该项目拥有非常活跃的开发者和用户社区。它现在是一个独立的开源项目，独立于任何公司维护。为了强调这一点，并明确项目的治理结构，Prometheus 于 2016 年加入云原生计算基金会，成为继 Kubernetes之后的第二个托管项目。

Prometheus 将其指标收集并存储为时间序列数据，即指标信息与记录时的时间戳以及称为标签的可选键值对一起存储。

有关 Prometheus 的更详细概述，请参阅媒体部分链接的资源。

特征

普罗米修斯的主要特点是：

具有由度量名称和键/值对标识的时间序列数据的多维数据模型
PromQL，一种利用这种维度的灵活查询语言
不依赖分布式存储；单个服务器节点是自治的
时间序列收集通过 HTTP 上的拉模型进行
通过中间网关支持推送时间序列
通过服务发现或静态配置发现目标
多种图形模式和仪表板支持

什么是指标(metrics)？

用外行的话来说，指标是数字测量，时间序列意味着随着时间的推移记录变化。用户想要测量的内容因应用程序而异。对于 Web 服务器，它可能是请求时间，对于数据库，它可能是活动连接数或活动查询数等。

指标在理解为什么您的应用程序以某种方式工作方面起着重要作用。假设您正在运行一个 Web 应用程序并发现该应用程序很慢。您将需要一些信息来了解您的应用程序发生了什么。例如，当请求数量很高时，应用程序可能会变慢。如果您有请求计数指标，您可以找出原因并增加服务器数量来处理负载。

组件

Prometheus 生态系统由多个组件组成，其中许多是可选的：

主要的Prometheus Server，用于抓取和存储时间序列数据
Client libraries用于检测应用程序代码
支持 short-lived job的Pushgateway
HAProxy、StatsD、Graphite 等服务的专用导出器
处理警报的Alertmanager
各种支持工具

大多数 Prometheus 组件都是用Go编写的，这使得它们易于构建和部署为静态二进制文件。

架构

此图说明了 Prometheus 的架构及其一些生态系统组件：

Prometheus 从检测job中直接抓取指标，或通过中间Pushgateway从 short-lived job中抓取指标。它在本地存储所有抓取的样本，并对这些数据运行规则，以从现有数据聚合和记录新的时间序列或生成警报。Grafana或其他 API 使用者可用收集的数据进行图形化展示。

什么场景适用？

Prometheus 可以很好地记录任何纯数字时间序列。它既适合以机器为中心的监控，也适合监控高度动态的面向服务的架构。在微服务的世界中，它对多维数据收集和查询的支持是一个特殊的优势。

Prometheus 专为可靠性而设计，是您在中断期间可以使用的系统，可让您快速诊断问题。每个 Prometheus 服务器都是独立的，不依赖于网络存储或其他远程服务。当您的基础设施的其他部分损坏时，您仍可以信赖它，并且您无需设置大量基础设施即可使用它。

什么场景不适用？

Prometheus 重视可靠性。即使在故障情况下，您也可以随时查看有关系统的可用统计信息。如果您需要 100% 的准确性，例如按请求计费，Prometheus 不是一个好的选择，因为收集的数据可能不够详细和完整。在这种情况下，您最好使用其他系统来收集和分析数据以进行计费，并使用 Prometheus 进行其余的监控。