线上流量突增百万高可用保障方案

其他 2023-05-17 03:41:27 阅读次数: 0

一：事前预防

1、预估系统瓶颈

1.1 梳理核心接口

按调用量梳理Top100
PM按业务重要等级梳理下端可能起量的接口
输出终版的接口文档

1.2 评估核心接口最高的TPS

测试环境模拟生产环境数据
核心接口进行全链路压测
输出核心接口性能报告

2、系统高可用保障措施

2.1、核心接口限流治理(不依外部接口)

应用集成sentinel
应用对应的接口接入限流
打印限流日志(便于设置告警)
sentinel管理端配置接口限流闯值(参考:接口最高的TPS*20%)

2.2、核心接口超时治理、熔断兜底治理(依赖外部接口)

应用集成sentinel
设置调用外部请求超时时间 (默认为3s)
打印超时日志(便于设置告警)
应用对应的接口接入熔断
跟业务确认好兜底方案
打印兜底日志(便于设置告警)
sentinel管理端配置接口熔断闽值(按响应时间RT、异常数、异常比例设置)

2.3、监控告警

接口调用量突增告警(基于监控能力)
接口限流告警(基于打印的限流日志配置)
调用外部接口超时告警(基于打印的超时日志配置)
业务监控（例如，活动发放监控，券发放监控，积分发放与商城积分兑换监控
应用Job，涉及事务操作支持幂等

2.4、应急预案准备

梳理核心接口异常风险点(主要评估可降级的关键地方)
非业务手工降级(配置disconf动态配置开关手工降级)
接口层面直接降级(配置disconf动态配置开关手工降级)

2.5、每日健康度巡检(每天早上9点)

2.5.1 错误日志检查

2.5.2 应用指标检查(CPU、内存fullgc、繁忙线程数)

2.5.3 中间件指标

redis : cpu，内存使用率，每秒命令写入数，redis慢查询
kafka：生产速率，消费速率，kafka积压情况

2.5.4 数据库指标

cpu：内存使用率， IO，慢SQL

2.2.5、接口指标

APM8大于1s接口
核心接口调用量峰值是否飙升

2.2.6 核心业务功能巡查(比如会员中心、查券、查询折扣)

2.5.7 异常监控告警日志原因检查

二：事中处理

1、应用重启

CPU打满
线程池打满

2、应用升配

应用升配，中间件升配，数据库生胚

CPU升配(比如8慈升到16核)
内存升配(比如8G升到16G)
应用内存升配后JVM参数优化

3、扩容

应用扩容：应用节点扩容(8节点-12节点)
中间件扩容： redis扩容(redis增加主从节点) kafka扩分区(增加kafka分区)

4、流量控制

disconf开启应急预案接口关闭配置开关，快速切断流量
sentinel管理端修改接口限流闻值(比如从之前的100降低到50)，限制流量

5、版本回滚

配置回滚(挂载和Disconf配置)
应用版本回滚

6、业务(影响系统性能)下线

业务下线
知会产品或运营

三：事后复盘

以一个P0级别故障项目复盘为例，说明

1、事件回顾

1、x月x号xx:xx分（比如3月14日 20:20分）运营人员上线XXX策略，其中多条优惠策略是面向全网用户生效；
2、x月x号xx:xx分，研发突然收到系统大量接口告警，研发迅速开始查询日志排查问题；
3、x月x号xx:xx分，运维反馈有部分应用节点不可用，运维开始对应用cpu和节点数进行水平扩容并且串行重启动态优惠系统所有节点；
4、x月x号xx:xx分，xx系统反馈xx业务出现大量下滑，启动P0故障；
5、x月x号xx:xx分，系统部分节点出现自动重启，研发和运维继续监控检查系统各项指标；
6、x月x号xx:xx分，通过监控发现redis出现一些大key，流量非常高，达到1.8G/s,经排查是新上业务策略报文太大导致redis出现大key；
7、x月x号xx:xx分，运营下架相关业务策略，系统恢复正常。

整个故障持续时间接近20分钟，间接影响收入XXX万，定级为P0故障

2、问题分析及解决办法

问题分析:

运营当天配置了XX策略，每条策略大概有XXX个规则；
之前的策略数据都是存储在redis中，所以运营配置XX条策略生效以后，redis接收到的报文瞬间变得非常大，策略key快速升级为大key，从1kb变成60kb，客户端频繁请求redis大key，流量高达1.8G/s，很快系统的http线程池被打满请求无法响应，系统进入假死状态。

解决办法:

优化edis大key：事发当晚，针对redis大key场景，引入本地缓存作为一级缓存，优先从本地存读取数据，减少对redis中间件的压力，优化后redis运行比较平稳
增加系统异常预案处理：在配置中心增加动态关闭接口的开关，一旦出现系统将不可用的情况。立即打开开关，进行人工降级并返回兜庭数据，等待系统资源正常后再打开开关。

3、总结与反思

1、研发侧

对redis重度依赖，redis有细微的抖动，服务接口响应时间波动非常大，系统风险大；
redis使用不规范，没有提前对redis大key作出预判，导致面对突发流量，系统扛不住；
没有形成一套标准的高井发和高稳定性的架构设计评审方案，由于xxx系统属于核心系统，每天请求的OPS很大，所以对于系统的稳定性设计要求极高，可能设计方案出现一点疏忽就会影响系统整体的稳定性；
性能压测没有真实模拟线上数据，导致压测结果有偏差，不能对研发同学优化性能做到精准支撑；

2、底盘运维侧:

目前我们所有的应用都已经上云，对集团底盘能力依赖较重，但集团提供的排查工具比较粗糙，没有顺手的工具可用，这里总结了几点如下:

JVM层面:

获取dump线程文件：每次都需要找运维帮忙手工dump线程文件，人工介入比较慢。

定位详细的性能瓶颈：目前实时在线分析应用指标的性能问题比较难，底盘提供的grafana指标监控，只能分析粗略的结果，不能准确定位是什么原因导致CPU飘高、频繁full gc、http线程被打满，排查问题周期较长。
中间件层面:

redis工具缺乏：目前底盘没有的redis慢查询、热Key、大key等监控工具，导致redis线上排查问题很困难

运维没有开放底层中间件与数据库的监控告警给业务研发，导致业务研发不能及时收到告警作出合理的响应。

3、产品运营侧:

产品侧：负责系统的产品同学经常换人，系统缺乏沉淀，而且系统逻辑复杂度很高，新人熟悉底层逻辑的时间通常很久，这样就会导致出需求的时候考虑不完善漏掉一些核心逻辑。
运营侧：运营同学上架策路节奏过快，策略上线后经常面向全网用户，如果出现问题，会引起大量客诉，风险高

4、行动与结果

1 研发测

输出一套标准的redis使用规范，包括redis存储规范、redis热key解决方案、redis大key解决方案，并在部门内进行导，避免其他组坑
开发redis热key、大key监控与告警的工具并且集成到鹰眼监控平台，方便部门研发人员第一时间定位问题
后续产品需求进入研发前，必须事先有严格的技术方案评审，研发同学必须输出架构方案设计图、接口详细设计、数据库设计、性能与安全设计、服务限流与降级配置、监控告警配置、预案设计，文档沉淀到CF，由各组PM主导，相关的研发和测试人员必须参与
性能压测必须输出一套统一的标准，压测的测试场景与线上高度还原，接口如果达不到业务要求上线的标准，测试同学通过邮件报备，与PM商量后是否延期需求，等研发优化完达到指定的性能标准后再上线

2 底盘运维侧

JVM层面：建议获取dump线程文件自动化，运维可以在集团云提供一个可视化页面，研发同学可以随时下载系统异常时刻dump线程文件

建议集团云在k8s容器集成Arthas性能分析工具，很多互联网大厂在使用，可实时在线分析应用相关指标，非常方便。
中间件层面：建议运维开放中间件和数据库的监控给业务研发，确保研发第一时间接收到信息进行处理，及时消除潜在的系统风险；

建议底盘开发redis慢查询和告警功能，可以串联skywalking分布式链路工具一起输出，这样排查性能问题非常有用

3 产品运营侧

产品侧：建议产品同学尽可能固定并且有备份同学，稳定的团队有利于系统长期、持续的规划和沉淀系统还有不少前任产品留下来的业务债务；

建议产品同学预留足够的时间优先处理这些债务，否则做的越多销的越多，我理解现在的慢是为了将来的快，欲速不达，
运营侧：后期上策略建议邮件抄送，建议说明策略面向的用户量和生效时间，便于研发提前监控数据以及是否根据系统支撑的最大QPS对系统进行扩容处理，同时增加审批的流程，比如运营负责人审批后才能上线策略；

建议运维上线策略采用灰度发布的方式，发布当天，运营密切关注数据是否正常，确定没问题后第二天再推向全网用户

猜你喜欢

转载自blog.csdn.net/quanzhan_King/article/details/130649574

线上流量突增百万高可用保障方案

tcpcopy复制线上流量

线上流量对比应用实践

线上接口流量突增，扛不住了

【原创】MySQL Replay线上流量压测工具

使用tcpcopy复制线上流量进行测试

流量突增限流策略

线上日志回放|线上流量回放、测试左移

网上流量卡这么便宜，线上申请的流量卡有虚标吗

稳定性和高可用如何保障？一手测评华为云网站高可用解决方案

Spring Boot限流解决方案：保障系统稳定与高可用

使用tcpcopy导入线上流量进行功能和压力测试

【复盘】解决线上流量过大导致服务超时

如何彻底打通线上流量口子拥有源源不断的精准粉丝的秘诀

网约车服务端线上流量巡检与测试验收技术

线上流量特训营：暴力引流10W+中小卖家流量破局技巧等

如何保障数据库的高可用

系统稳定性与高可用保障

mysql高可用方案

Nginx 高可用方案

Proxmox高可用方案

FastDFS高可用方案

【keepalived】高可用方案

Redis高可用方案

Python自动化测试之线上流量回放：分析、存储与本地化支持！

Sentinel 高可用流量管理框架

保障服务的持续高可用、高性能及负载均衡

Write-Ahead-Log（WAL）保障数据高可用

keepalived+Nginx实现主备保障Nginx的高可用。

大型网站高可用保障体系图

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)