Prometheus学习系列（二十二）之PromQL例子

一、简单的时间序列选择

使用度量标准http_requests_total返回所有时间序列：

http_requests_total

使用度量标准http_requests_total以及给定的job和handler标签返回所有时间系列：

http_requests_total{job=“apiserver”, handler="/api/comments"}

返回相同向量的整个时间范围（在本例中为5分钟），使其成为范围向量：

http_requests_total{job=“apiserver”, handler="/api/comments"}[5m]

请注意，导致范围向量的表达式不能直接绘制，而是在表达式浏览器的表格（“Console”）视图中查看。

使用正则表达式，您只能为名称与特定模式匹配的作业选择时间序列，在本例中为所有以server结尾的作业。请注意，这会进行子字符串匹配，而不是完整的字符串匹配：

http_requests_total{job=~“server$”}

Prometheus中的所有正则表达式都使用RE2语法。

要选择除4xx之外的所有HTTP状态代码，您可以运行：

http_requests_total{status!~"^4…$"}

二、子查询

此查询返回过去30分钟的5分钟http_requests_total指标率，分辨率为1分钟。

rate(http_requests_total[5m])[30m:1m]

这是嵌套子查询的示例。 deri函数的子查询使用默认分辨率。请注意，不必要地使用子查询是不明智的。

max_over_time(deriv(rate(distance_covered_total[5s])[30s:5s])[10m:])

三、使用函数，操作符等

使用http_requests_total指标名称返回所有时间序列的每秒速率，在过去5分钟内测量：

rate(http_requests_total[5m])

假设http_requests_total时间序列都有标签job（按作业名称扇出）和instance（按作业实例扇出），我们可能想要总结所有实例的速率，因此我们得到的输出时间序列更少，但仍然保留job维度：

sum(rate(http_requests_total)[5m]) by (job)

如果我们有两个具有相同维度标签的不同指标，我们可以对它们应用二元运算符，并且两侧具有相同标签集的元素将匹配并传播到输出。例如，此表达式为每个实例返回MiB中未使用的内存（在虚构的群集调度程序上公开它运行的实例的这些度量标准）：

(instance_memory_limit_byte - instant_memory_usage_bytes) / 1024 / 1024

相同的表达式，但由应用程序总结，可以这样写：

sum( instance_memory_limit_bytes - instance_memory_usage_bytes) by (app, proc) / 1024 / 1024

如果相同的虚构集群调度程序为每个实例公开了如下所示的CPU使用率指标：

instance_cpu_time_ns{app=“lion”, pro=“web”, rev=“34d0f99”, env=“prod”, job=“cluster-manager”}
instance_cpu_time_ns{app=“elephant”, proc=“worker”, rev=“34d0f99”, env=“prod”, job=“cluster-manager”}
instance_cpu_time_ns{app=“turtle”, proc=“api”, rev=“4d3a513”, env=“prod”, job=“cluster-manager”}
…

…我们可以按应用程序（app）和进程类型（proc）分组排名前3位的CPU用户：

topk(3, sum(rate(instance_cpu_time_ns[5m])) by(app, proc))

假设此度量标准包含每个运行实例的一个时间系列，您可以计算每个应用程序运行实例的数量，如下所示：

count(instance_cpu_time_ns) by (app)

四、链接

Prometheus官网地址：https://prometheus.io/
我的Github：https://github.com/Alrights/prometheus