[1][记一次线上问题处理]服务系统时间戳不准确导致的线上异常

【背景】

1.公司项目目前会通过接口返回来控制前端的展示,接口吐出模块一、模块二、模块三等多个模块的样式,前端负责渲染。后端接口如果不吐出某个模块,前端不会异常   只是会不展示该模块

2.最近几天在刷自家app的时候发现某个页面的顶部模块有的时候出来,有的时候不出来

【分析】

1.首先想到的是这个顶部模块中调用的第三方接口存在问题,于是添加日志,发现日志返回结果正常。【排除】

2.时有时无让我想到可能是ngix出现问题,可能是ng下挂的多台服务器状态不一致,于是看了一下最近发布的记录,发现发布正常,没有服务器不一致的状况。【排除】

3.不死心,肯定是ngix出现问题,于是上没太服务器上tail日志,多次请求,发现这种异常只出现在指定的几台机器上。【兴奋,有突破点了】

4.于是添加更加详细的日志,发现获取meta信息的接口返回异常,导致后面拼装模块失败【诧异,服务器代码状态和发布包一致,为什么会出现这种问题】

5.仔细扫代码,发现获取meta信息的接口有一个TimeStamp的参数,查了一下接口文档,时间戳需要和当前系统时间戳保持一致,然后查了一下出现问题的服务器果然系统时间戳未校准。找同事问了一下,发现最近有扩容多台服务器【找到问题根源】

6.最后校准系统时间戳,偶现问题消失

【总结】

1.分布式系统下,偶现问题大多下层服务器状态不一致

2.开发过程中,多做校验,运行时异常要抛出

发布了13 篇原创文章 · 获赞 0 · 访问量 2744

猜你喜欢

转载自blog.csdn.net/lq851643368/article/details/103114911