唯品会宕机惨案，损失超亿元！故障来时如何迅速应对？

事件回顾

对于IT工程师来说，宕机并非新鲜话题，经历过一次服务器宕机，职业生涯才“完整”。但如果事故超过 12 小时，或许会直接造成职业生涯“宕机”。

3月29日发生的突发事件，#唯品会App崩了冲上热搜，系统短时故障导致“加购”等功能出现异常。官方公告称，此次南沙机房重大故障影响时间持续12个小时，导致公司业绩损失超亿元，影响客户达800多万。

据悉，造成此次故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机，造成线上商城停止服务。

此次机房事故影响除了唯品会，微信、QQ等腾讯旗下社交软件也出现功能异常，包括微信语音对话、朋友圈、微信支付，以及QQ文件传输、QQ空间和QQ邮箱在内的多个功能无法使用。

显然，微信团队反应迅速并及时恢复。唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位，并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任，基础平台部负责人予以免职做相应处理。

事件反思与复盘

1、技术迭代多轮，为啥依然存在大规模宕机事件？

从两个方面进行解答

1、承认故障是不可避免的，有人为的故障（Human Error），人是容易出错的；也有机器的故障（Failure），这些属于无计划的停机。发布新系统、升级维护、更新硬件等，属于有计划停机。即使技术做得再好，也只说自己能做到多少个 99.99%，而非 100% ，技术的上限是努力生成多个9。当然每个9的背后都早已暗中标好价格。

2、从分布式架构设计来说，世界上的软件都是有故障的，故障发生时，首先希望故障不要蔓延开，能够控制得住，其次是故障的时间越短越好。然而，架构系统也有很多的依赖，如基础设施 DNS、CDN、运营商、机房等等，想要实现稳定，需要大家一起实现。

系统宕机对于任何企业来说都非常严重，若不及时处理将会导致严重的后果，提前做好相关防范措施，能避免更大的损失。

2、如果故障不可避免，如何保障数据安全和业务的可靠性？

这就要强调数据容灾备份的必要性。

容灾，是指在遭遇灾害时能保证信息系统能正常运行。

备份，则是运用一些技术手段保证数据不丢失，容灾备份产品的最终目标是帮助用户应对人为误操作、软件错误、病毒入侵等“软”性灾害以及硬件故障、自然灾害等“硬”性灾害。

制定合理的机房备份和容灾方案，实现数据备份和迁移，保证在发生机房故障时能够快速恢复平台服务。最后，要建立有效的机房故障应急预案，明确责任人和流程，在发生机房故障时能够及时采取措施，减少损失。

灾难造成的财产的损失是数以万计的，但不仅限于是财产，还有设备上数据的丢失。在灾难面前，提前加强预警和防范，居安思危，做好数据的容灾管理，就很难对灾后重新投入生产、保障行业信息数据有所参考有个清晰的规划和认识。

可能认真做灾备的公司很少，成本高，不出事时完全没收益。搞个牛X灾备，花费巨大，这几年，大基调是降本。

3、如何提高机房故障风险防范及应对？

首先，机房选择要考虑位置和规模，考虑到地理位置、气候条件、交通便利性、网络环境等因素，避免因外部因素导致机房故障。

其次，要建立完善的机房监控和报警系统，及时发现并处理机房内部的温度、湿度、电力、网络等问题，防止因小失大。

此次唯品会机房故障事件给我们提供了一个深刻的教训，也提醒了我们在追求业绩增长的同时，不能忽视技术安全和稳定性的重要性。只有做好技术保障和风险防范工作，才能为用户提供更好的购物体验和服务。此次机房故障事件却给唯品会带来了沉重的打击，不仅造成了巨大的经济损失，还影响了用户的信心和忠诚度。

事实上，机房故障事件并非个例，而是电商行业普遍面临的一个风险点。在互联网时代，电商平台的运营离不开稳定可靠的技术支撑，而机房作为电商平台的核心基础设施之一，其安全性和可用性直接关系到平台的正常运行和用户的满意度。一旦发生机房故障，不仅会导致平台功能异常、数据丢失、交易中断等问题。

机房运维的高效策略

魔鬼藏在细节里，教训留给自己，经验警醒他人。

机房安全是业务发展的底座。提升机房设备安全和管理效率，避免人为因素导致的事故发生，是机房运维的必要前提。

LinkSLA结合AI、大数据等先进新技术，通过专业化的运维管理系统，以智能化、流程化技术手段，提高运维管理效率。除了补充人力不足，同时提供直观、实时的可视化监控系统界面，将监控对象清晰展现，实时掌握系统运行状态，高效应对突发事件。

1、全面、敏捷的监控系统

将所有资产并入监控系统，对每个资源节点的状态、性能进行实时监控。对机房的温湿度、电力系统的运行状态、网络设备、主机的性能、空间容量等信息进行实时监控，并通过展示系统运行状态，高效应对规模庞大的基础设施，网络设备、服务器、存储、应用等。

（机房动环监控视图）

2、快速发现、定位问题，保障业务稳定运行

资产全生命周期管理：提供了有效、准确、及时的“部件级”IT资产信息。以业务视角监控系统健康度，系统视图展示各个资产运行的状态，业务拓扑图、告警列表趋势等。

当故障发生时，帮助工程师快速对故障进行诊断，提升系统运行质量。好的运维系统不仅起到“灭火”作用，更重要的是能预先发现漏洞，防患于未然；事后控制不如事中控制，事中控制不如事前控制；

3、服务闭环——监、管、控全面开花

“监”全栈监控，全局视角整合告警事件、性能指标、日志和容量等多维数据，重点发现故障节点；“管”就是配合资产变更和事件流程；“控”重点还是在增强可靠性减少故障。

除此之外，还提供7*24在线值守，配备moc专家和二线专家团队，提高事件的响应及处理效率，大大降低人力成本和专家技术成本，确保故障事件都能得到追踪和及时解决。

4、AI机器学习算法——精准、及时

实现精准告警、异常检测、根因定位和容量分析等场景。异常告警智能化，基于动态阈值的报警确认，对海量的时序指标进行异常检测，实现故障快速响应：能发现问题，也能提供解决方案。

高效、降本的背后是强大的技术支撑，LinkSLA智能运维管家交付的不仅仅是平台，更是一套可持续提升的运维模式，为用户提升价值，提高运维效率，降低运营成本。

扫码试用

唯品会宕机惨案，损失超亿元！故障来时如何迅速应对？

猜你喜欢