一、整体效果

Yarn的监控最主要是能看到目前活跃的ResourceManager，同时能够显示目前的Nodemanager的活跃情况。其次是能够看到RM和NM的可用内存、可用Cpu、GC、RPC等的监控。还有就是比如namenode挂掉就能报警等。

二、举几个案例可用自行配置

简单的配置左Y轴右Y轴的单位，rate()方法的使用等简单的操作自行百度其他文章，这些分享一些骚操作。

1、怎么显示RM的状态

（1）首先要配置出下图这个样子

a、选择你的数据源Promethues

b、在metric里选择Hadoop_ResourceManager_AvailableMB这个metric，因为这个metric当RM为standby时他的值为0，Active大于0，所以就可以利用这个待会来做文章

c、将format改为Table

d、将Instant，这个意思是瞬时，就是基于当前最新的一个值，如果不点，就会显示历史的所有值

（2）利用上面Value的值0和不为0的值变为绿色的Active和变为红色的Standby

就不详细叙述了，跟着点就行

2、配置Nodemanager挂掉的Dashboard

这个最主要的实现功能是这个Promethues的absent这个fuction，支持instant-vector即瞬时变量就是当前的值，这个方法作用是当哪个instance没有值了就会返回向量一，详细解释见官网。有了这个function当dashboard显示某个Nodemanager的值为1，则证明此时没有值了即Nodemanager可能挂掉了，需要进行告警排查。

3、基于步骤二实现Nodemanager挂掉告警Alert

报警很简单，就是如果值大于0就说明挂了，那规则就是IS ABOVE 0；

注意：取名一个天坑，就是一定要记得当你配置哪个任务挂掉的那种类型，一定要记得把这个状态设置为Ok，某则你选其他值的话，当你的各个节点都正常，此时你的DashBoard就是显示为no data，那就会给你疯狂报警，所以配置哪个任务挂掉的那种类型的Alert记得设置为Ok。

HDFS & Yarn 即Hadoop by Jmx on Promethues + Grafana的监控（三） —— Grafana的Dashboard配置（以 Yarn 为例）