运维领域学习

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/admijk/article/details/70212924

4.10日 问题排查记录

前不久排查一次有几个接口突然变慢的故障,持续时间大概1个小时,我比较无头苍蝇,不知道从哪里查起,看个各个机器上的请求:
1、发现一个请求qps:10K/s 有点怀疑,但是平均耗时:7ms,应该不是这个问题
2、因为是慢性毒药,所以一直死的不明显。于是使用神器,日志链路调用查询:发现只有几个接口rt上涨明显,几个系统一对比,确定大致是一个系统的问题,但是发现是这个系统调用多个外部系统超时,此时我蒙蔽了,同时这么多外部系统挂了(就是这里的问题,openApi没有new一个对象不会回收,多次fullgc,时间很长,但是每次gc后发现空间依然不够再次触发gc(偶尔也能gc出少部分空间),然后web访问rt直线上升)。

临时查看nginx日志,发现不会,于是就看了看nginx的相关资料:

运维人员的博客
linux问题排查前五分钟
Web服务器之Nginx详解
Nginx 反向代理、负载均衡、页面缓存、URL重写及读写分离详解
OpenResty® 是一款基于 NGINX 和 LuaJIT 的 Web 平台
nginx官方文档
现在推行devops,运维相关的知识也需要了解一部分。

有一些扩展:

nginx+lua打造10K qps+的web应用

吞吐量、qps、rt、用户并发量、性能测试、load Average(系统负载)

系统吞吐量、TPS(QPS)、用户并发量、性能测试概念和公式
Load Average (系统负载)

nginx作为web服务器的好处:

1、监听某个端口的请求,能记录完整的请求,tomcat等web服务器可能不会打印这个日志。
2、可以对特权请求的url就行反向代理到其他服务上。
3、更好的统计qps/rt

linux系统性能查询:
tsar工具

猜你喜欢

转载自blog.csdn.net/admijk/article/details/70212924