部署prometheus监控kubernetes集群并存储到ceph

简介

Prometheus 最初是 SoundCloud 构建的开源系统监控和报警工具，是一个独立的开源项目，于2016年加入了 CNCF 基金会，作为继 Kubernetes 之后的第二个托管项目。

特征

Prometheus 相比于其他传统监控工具主要有以下几个特点：
具有由 metric 名称和键/值对标识的时间序列数据的多维数据模型
有一个灵活的查询语言
不依赖分布式存储，只和本地磁盘有关
通过 HTTP 的服务拉取时间序列数据
也支持推送的方式来添加时间序列数据
还支持通过服务发现或静态配置发现目标
多种图形和仪表板支持

组件

Prometheus 由多个组件组成，但是其中许多组件是可选的：
Prometheus Server：用于抓取指标、存储时间序列数据
exporter：暴露指标让任务来抓
pushgateway：push 的方式将指标数据推送到该网关
alertmanager：处理报警的报警组件
adhoc：用于数据查询
大多数 Prometheus 组件都是用 Go 编写的，因此很容易构建和部署为静态的二进制文件。

prometheus组件架构图

如上图，每个被监控的主机都可以通过专用的exporter程序提供输出监控数据的接口，并等待Prometheus服务器周期性的进行数据抓取。如果存在告警规则，则抓取到数据之后会根据规则进行计算，满足告警条件则会生成告警，并发送到Alertmanager完成告警的汇总和分发。当被监控的目标有主动推送数据的需求时，可以以Pushgateway组件进行接收并临时存储数据，然后等待Prometheus服务器完成数据的采集。

任何被监控的目标都需要事先纳入到监控系统中才能进行时序数据采集、存储、告警和展示，监控目标可以通过配置信息以静态形式指定，也可以让Prometheus通过服务发现的机制进行动态管理。下面是组件的一些解析：

监控代理程序：如node_exporter：收集主机的指标数据，如平均负载、CPU、内存、磁盘、网络等等多个维度的指标数据。
kubelet（cAdvisor）：收集容器指标数据，也是K8S的核心指标收集，每个容器的相关指标数据包括：CPU使用率、限额、文件系统读写限额、内存使用率和限额、网络报文发送、接收、丢弃速率等等。
API Server：收集API Server的性能指标数据，包括控制队列的性能、请求速率和延迟时长等等
etcd：收集etcd存储集群的相关指标数据
kube-state-metrics：该组件可以派生出k8s相关的多个指标数据，主要是资源类型相关的计数器和元数据信息，包括制定类型的对象总数、资源限额、容器状态以及Pod资源标签系列等。

Prometheus 能够直接把 Kubernetes API Server 作为服务发现系统使用进而动态发现和监控集群中的所有可被监控的对象。这里需要特别说明的是， Pod 资源需要添加下列注解信息才能被 Prometheus 系统自动发现并抓取其内建的指标数据。

1） prometheus. io/ scrape：用于标识是否需要被采集指标数据，布尔型值， true 或 false。
2） prometheus. io/ path：抓取指标数据时使用的 URL 路径，一般为/ metrics。
3） prometheus. io/ port：抓取指标数据时使用的套接字端口，如 8080。

另外，仅期望 Prometheus 为后端生成自定义指标时仅部署 Prometheus 服务器即可，它甚至也不需要数据持久功能。但若要配置完整功能的监控系统，管理员还需要在每个主机上部署 node_ exporter、按需部署其他特有类型的 exporter 以及 Alertmanager。

kube-state-metrics与metric-server的对比

metric-server（或heapster）是一个集群组件定期通过kubelet来获取集群节点的cpu、内存使用率这种监控指标，而且它只保留最新数据且存储在内存中，不负责发送给第三方，你可以通过其他方式把他们发送给存储后端，如influxdb或云厂商，他当前的核心作用是：为HPA等组件提供决策指标支持。

kube-state-metrics关注于获取k8s各种资源对象的最新状态，如deployment或者daemonset，它在内存中保留kubernetes集群状态的快照并且在随后的时间里基于这个快照生成新的指标，而且它也不负责发数据发给第三方。将kube-state-metrics作为单独的项目，还可以从Prometheus等监控系统访问这些指标。

之所以没有把kube-state-metrics纳入到metric-server的能力中，是因为他们的关注点本质上是不一样的。metric-server仅仅是获取、格式化现有数据，写入特定的存储，实质上是一个监控系统。而kube-state-metrics是将k8s的运行状况在内存中做了个快照，并且获取新的指标，但他没有能力导出这些指标换个角度讲，kube-state-metrics本身是metric-server的一种数据来源，虽然现在没有这么做。另外，像Prometheus这种监控系统，并不会去用metric-server中的数据，他都是自己做指标收集、集成的（Prometheus包含了metric-server的能力），但Prometheus可以监控metric-server本身组件的监控状态并适时报警，这里的监控就可以通过kube-state-metrics来实现，如metric-serverpod的运行状态。

部署前提

检查ceph集群状态

# ceph -s
......
    health: HEALTH_OK

检查kubernetes集群状态

# kubectl get nodes
NAME         STATUS                     ROLES    AGE    VERSION
20.0.0.201   Ready,SchedulingDisabled   master   4d9h   v1.17.2
20.0.0.202   Ready,SchedulingDisabled   master   4d9h   v1.17.2
20.0.0.203   Ready,SchedulingDisabled   master   4d9h   v1.17.2
20.0.0.204   Ready                      node     4d9h   v1.17.2
20.0.0.205   Ready                      node     4d9h   v1.17.2
20.0.0.206   Ready                      node     4d9h   v1.17.2

注：ceph 使用assembly pool，prometheus集群的名称空间为assembly

这里我只给出具体配置，有关详细的理论解释请自行google。

建议：学习本篇之前，先搞通此篇：https://www.cnblogs.com/zisefeizhu/p/12519658.html

部署总述

# pwd
/data/k8s/prometheus
# tree ./
./
├── altermanager
│?? ├── alertmanager-conf.yaml
│?? ├── alertmanager-deployment.yaml
│?? └── alertmanager-svc.yaml
├── ceph-prometheus-storageclass.yaml
├── grafana
│?? ├── grafana-chown-job.yaml
│?? ├── grafana-deployment.yaml
│?? ├── grafana-ingressroute.yaml
│?? ├── grafana-pvc.yaml
│?? └── grafana-svc.yaml
├── node-exporter
│?? └── node-exporter.yaml
└── prometheus
    ├── prometheus-cm.yaml
    ├── prometheus-deploy.yaml
    ├── prometheus-ingressroute.yaml
    ├── prometheus-pvc.yaml
    ├── prometheus-rbac.yaml
    └── prometheus-svc.yaml

4 directories, 16 files


# kubectl get pods -n assembly
NAME                              READY   STATUS    RESTARTS   AGE
alertmanager-76fd475999-l9pdh     1/1     Running   0          54m
grafana-866bbc647-2kxkk           1/1     Running   0          3h50m
node-exporter-7x5wb               1/1     Running   0          4h2m
node-exporter-8gfsn               1/1     Running   0          4h30m
node-exporter-dsk89               1/1     Running   0          4h30m
node-exporter-jw7ck               1/1     Running   0          4h30m
node-exporter-rcw6c               1/1     Running   0          4h30m
node-exporter-w5sz6               1/1     Running   0          4h30m
prometheus-7d844f7645-x75rp       1/1     Running   0          4h31m
rbd-provisioner-9cf46c856-mvtx5   1/1     Running   15         34h


# kubectl get pvc -n assembly
NAME                 STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS      AGE
grafana-pvc          Bound    pvc-8b1550f9-9b7d-4884-b41d-ea10106f9321   5Gi        RWO            ceph-prometheus   4h46m
prometheus-pvc       Bound    pvc-3ae3ac53-537f-4641-b626-b74da48db053   10Gi       RWO            ceph-prometheus   4h31m