记录一次公司全部业务暂停的重大事件

   今天下午公司所有项目全部挂掉,商家端App无法放问,客户端App无法访问,用户端小程序无法访问、后台管理系统无法访问....... 
页面没有报任何错误原因,直说无法连接网页,很显然如果php-fpm挂了的话,nginx肯定会报出错误,但是nginx也没报出错误,这个就很奇怪了,难道服务器挂了?

  我们公司主要业务是做支付的,类似于收款码,付款码这种。商户数1000多家。

  然后我们后端技术部慌乱了手脚,因为以前也出现过一些事故,但是区域都很小,没有像这个这么大面积。

我和总监第一时间排查问题所在,发现nginx、php-fpm、cpu、内存、全部都正常,那么到底为什么任何一个接口都无法访问了呢?

此时开始尝试laravel框架的代码是否可以访问,不可以。

查看CI框架的代码是否可以访问,不可以。

查看微擎的代码是否可以访问,统统不可以。

然后试了一下通过IP是否可以访问,输入IP之后  咦 发现出现了502,nginx返回错误了。

  难道是域名出问题了? 域名肯定不会出问题啊,难道是https证书到期了? 但是总监说2个月前刚换的证书,这个被pass了

  还是百思不得其解,各种尝试各种查看log都没发现问题。  

  因为我们项目都是https请求,http转向到https,我通过curl形式访问了下http的,最后发现网站备案出了问题????

  备过案的网站为何出问题呢?打开阿里云收到提示:网站备案信息与经营内容不一致............... 

  老板问我们解决要多久,我们说最早晚上以前解决。老板怒了!毕竟上千家商户正在使用着呢。然后各种发脾气

  我曹。。明明是老板自己的问题 我们技术部却默默背了锅,被老板责怪为什么不提前做好防范措施,为什么不能有第二套解决方案立马出来。。

  可能别人会感觉不就换个域名的事 哪里有那么麻烦,但是先不说支付宝和微信的参数域名配置需要重新弄,而且我们因为历史遗留原因很多东西都是用的nginx转发的请求,所以彻底改起来真的挺难,更何况这种方法还有一个点根本无法解决

  就是商户收钱的二维码,那个二维码的url是写死的,我们总不能再去把商户的二维码换一换吧?

  本来做好了今晚通宵加班的准备,结果好消息来了:向阿里客服说了我们的情况之后,阿里立马给了我们3天的迁移时间,真的谢天谢地,阿里还是人性化一些。

  明天要开始想如何迁移的事了,商户的二维码地址都是写死的,这个如何做好灾备处理呢?

猜你喜欢

转载自blog.csdn.net/helloworld_dream/article/details/88675488
今日推荐