福利

Prometheus监控实战PDF电子书下载

链接：https://pan.baidu.com/s/1QH4Kvha5g70OhYQdp4YsfQ
提取码：oou5
若你喜欢该资料，请购买该资料原版……以及不用于商业用途，或仅用于研究目的，24小时内删除。

以下部分为我个人的阅读分享，即所谓的化重点部分

正文开始

监控应该服务于两个方面：一个是技术（提升技术），一个是业务（保证服务）

Zabbix等监控使用的静态阀值的缺点。需要考虑到系统的动态性，复杂性

底层系统的监控对于实际业务的价值不大.不能说你系统没问题，应用就没有问题。对底层操作系统的监控，只适合作为监控辅助

监控顺序应该先从靠近客户侧开始，业务监控为主，应用监控为辅，系统监控次之。

监控内容应该要准确。例如不应该只监控HTTP200状态吗，还应该监控到具体的业务层面，例如页面是否正常显示，客户访问延迟有多少，访问失败率是否过高等。

监控时尽量不要使用平均值等指标，而应该使用百分位数，加上其他指标，建议是50分位数，90分位数，最大值。这里以100个用户访问站点的时间为例，解释一下所谓的百分位数，即所有用户访问站点的时间从小到大排列，其中前面90个用户都在3秒甚至更短的时间内成功访问到站点，那么我们就可以说用户访问站点的90分位数的时间是3秒，换句话说就是90%都在3秒甚至更短的时间内成功访问到站点。

对于系统层面的监控，我们应该采用USE模式。其中U（使用率），S（饱和度），E（错误率）

对于应用程序的监控，我们应该采用谷歌的四大环境指标——延迟，流量，错误，饱和度

监控周期应该尽可能频繁，避免导致检查间隔期丢失关键事件

监控服务应该尽可能自动化，自服务，减少人为的后期配置

监控方法分为探针和内省，探针针对的是从外部探测应用服务状态，例如http返回码，ICMP检查等。内省是针对检查应用程序内部运行状态，更适合报告和诊断，探针则是适合发现问题

指标类型分为：测量型（上下浮动），计数型（累加，可重置归零），直方图（相当于频率分布区间）

Prometheus监控实战day1-监控简介

福利

正文开始

猜你喜欢