记:服务器第二次宕机

       真正的勇士敢于直面惨淡的人生,敢于正视淋漓的鲜血,真正的程序员勇于面对线上程序出现的BUG,敢于直面错误以及及时解决问题,带来真正意义上的提升与升华。

       回想前几个月,也就是2019年,距离这次的记录好像不太远,但是印象比较深刻,也算是项目经自己的手里真真实实的砸手里了,那个时候晴朗的下午,阳光明媚,可以看这篇文章 https://blog.csdn.net/chajinglong/article/details/103201325

       展望未来,来到了2020年,四月是一个黑暗的日子,前一天,同事们辛辛苦苦的加班加点搞到凌晨三四点(当天我有事,所以就下了班就回去了,心里犯嘀咕,总感觉有大事发生),第二天休息,上完线我就醒了,然后八点起来洗把脸,盯着电脑,想着上线都没事了,测试都测过了,然后准备先做个早饭吃吃,脑子正在快速转动,然后问题就出现了......

      问题的发生?

     线上项目第一次崩溃的时间在十点半,然后紧急就接到通知,赶紧找运维重启项目,开始定位问题,都说看一个人的能力,就看定位问题的能力,然后就施展各家功夫,有持棍的,有持刀的,有持枪的......,形形色色,各不相同,就看谁先站出现解决问题了。

      思路一:看了一下日志,用户登陆崩溃,所有登陆失效,问题挺多的,然后就思考之前发生的事情,想起来之前测试的时候,用户在用PC登陆的时候,提出APP端登陆(备注:单点登陆,如果不懂,可以看这篇文章https://blog.csdn.net/chajinglong/article/details/85066243),然后用户一直就登陆不上,想必是不是这个原因造成,因为这个问题出现在上线之前,之前也有过修复,因为是偶发的,所以会不会这个引起的,然后看了一下master代码,看了一下逻辑,发现,同时更新两个update,可能会造成死锁,原因好像找到了,这下就开心了,重新提交,重新启动,运行起来了。

      过去一个半小时,然后就又出现了问题了,线上数据急剧上升,服务器,CPU全部都正常,用户感知就是出现登陆不上,刚开始我们自己登陆发现还行,过了几分钟,全部都登陆不上了,

未完待续......

猜你喜欢

转载自blog.csdn.net/chajinglong/article/details/105693678