监控怎么看?

现在一个企业的应用不加监控,那简直不可思议了,如果线上环境出了问题怎么办,看日志当然可以,但是有些问题不会报日志,比如cpu使用率太高,内存不足,连接数堆积,请求不断上涨,这些问题就需要监控系统的报警了。最近我的公司出来一些情况,线上的应用依赖的第三方软件出了些问题,导致业务没有办法进行下去,影响上千人的服务,这个时候就显出监控的意义了。

监控一般由仪表盘组成,常见的有grafana,我使用的就是这一种,它呈现给你的一般都是折线图,当然其他的直方图也可以自己配置。而这些图表所表示的数据一般分为两种,一种是计数型,一种是比率型。比如请求数和每秒请求数。当然不管是哪种我们都是想要发现不合理不正常的地方。

一开始我是看不懂图表的,但是当我发现这种东西的重要性之后,我还是学习了一下,总结了一些经验。那就是关注cpu,内存,网络,和逻辑这四个地方。什么是cpu的指标,就是cpu使用率,cpu负载,使用率不要超过80%,负载不要超过4,内存比较简单,一般只要不太靠近内存限制都没什么问题,java应用的内存一般不会超过2G,如果可以看到swap的交换次数,就可以知道是否是内存不足了。网络一般是网络问题,也就是网卡的吞吐量怎么样,网络连接数怎么样,如果吞吐量不升,连接数持续走高,就可以认为是有问题了。逻辑是指指标是有联系的,如果业务是a服务发请求到b服务,但是a服务的请求发送量和b服务的请求接收量不对应,那么可能就是请求失败,或者请求堆积了,最不靠谱的是没发日志,因为日志才更容易定位问题。

猜你喜欢

转载自blog.csdn.net/j4791/article/details/82728459
今日推荐