监控指标

LoadAverage

要想获得服务器的CPU负载情况，有下面几种命令：
1/ [root@airflow-1 ~]# w
08:30:15 up 1 day, 21:44, 6 users, load average: 3.89, 3.23, 4.34
2/ top
3）top命令
[root@localhost ~]# top
top - 12:13:22 up 167 days, 20:47, 2 users, load average: 0.00, 0.01, 0.05
Tasks: 272 total, 1 running, 271 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.0 us, 0.1 sy, 0.0 ni, 99.9 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 65759080 total, 58842616 free, 547908 used, 6368556 buff/cache
KiB Swap: 2097148 total, 2097148 free, 0 used. 64264884 avail Mem
…………….

对上面第三行的解释：
us（user cpu time）：用户态使用的cpu时间比。该值较高时，说明用户进程消耗的 CPU 时间比较多，比如，如果该值长期超过 50%，则需要对程序算法或代码等进行优化。
sy（system cpu time）：系统态使用的cpu时间比。
ni（user nice cpu time）：用做nice加权的进程分配的用户态cpu时间比
id（idle cpu time）：空闲的cpu时间比。如果该值持续为0，同时sy是us的两倍，则通常说明系统则面临着 CPU 资源的短缺。
wa（wait）：等待使用CPU的时间。
hi（hardware irq）：硬中断消耗时间
si（software irq）：软中断消耗时间
st（steal time）：虚拟机偷取时间

以上解释的这些参数的值加起来是100%。

#适合用于单核的情况
Load < 0.7时：系统很闲，马路上没什么车，要考虑多部署一些服务
0.7 < Load < 1时：系统状态不错，马路可以轻松应对
Load == 1时：系统马上要处理不多来了，赶紧找一下原因
Load > 5时：马路已经非常繁忙了，进入马路的每辆汽车都要无法很快的运行

#如果是多核情况则理想状态是1*核数
如2核，load=2就是正常

在Load average 高的情况下不能单单是增加cpu,还要看cpu的利用率
需要鉴别系统瓶颈到底是CPU不足，还是io不够快造成或是内存不足造成的。

猜你喜欢