系统保障--目标

---------高可用------------

Ø不可用=故障。

不用时间=故障修复时间点-故障发现时间点

可用性指标=(1-不可用时间/年度总时间)*100%

Ø高可用:最理想状态可用性100%

系统具备高可用运行能力,说明系统的故障率极低

ØQQ为例:99.99%  一年大约53分钟不可用

广告投放引擎为例:99%  一年大约88小时不可用

---------高并发---------------

Ø并发:同时向系统提交请求的用户数目。

  性能指标用于描述并发性能力

  性能指标参数:吞吐量(TPS),响应时间(responseTime)

Ø高并发:吞吐量高,响应时间快

  系统具备高并发运行能力,说明系统的  吞吐量高,响应时间快。

Ø广告投放引擎系统为例:   TPS:10000,responsetime:100ms

高可用

       

容量规划

集群容灾

运行监控

依赖降级

 

全链路服务模型

全链路容量模型

全链路容量归一化

优化系统瓶颈

全局负载均衡

异地多IDC

应用集群部署

应用故障切换

数据分片

数据故障切换

监控指标

1.实现秒级监控和报警(包括业务异常和系统异常);

2.提供的每个服务的访问量,成功率,耗时时间,实时容量占比;

3.外部关键依赖服务的性能指标监控和阀值报警;

4.所有本系统发生的故障,都能实现秒级应急处理;

5.所有的业务的失败率统计。

======

1.redis,kaffka,分库分表中间件,SSF的性能指标都设置报警阀值;

2.数据库访问监控:访问量、增长量、数据库连接池,iops,load,top10 分析

======

1.服务器的load,cpu,memory,io的峰值和均值;

1.安全风险监控:识别DDOS,CC等常用攻击手段;

2.关注响应时间,吞吐量,资源利用率,随负载的变化

强依赖

降级关闭非核心服务

弱依赖

降级旁路依赖服务

路由至备份通道/默认值

 

可伸缩性

     

全链路SLA

水平扩展

多级流控

 

定义主链路所有核心服务的SLA,

包含TPS,耗时、异常率、可流控、可降级等指标。

应用水平扩展

•SOA面向服务架构从架构层面支持应用的水平扩展

•SSF服务框架解决了服务间通讯的性能瓶颈

缓存水平扩展

•采用数据分片,做到缓存数据可水平扩展

•主备同步,单片主机发生故障,自动切换到备机

数据库水平扩展

•数据库分库,解决了数据库高并发IO瓶颈

•数据库分表,解决了数据库单表容量的性能瓶颈

系统安全容量

历史第一高峰容量

历史第二高峰容量

平时高峰容量

平时正常容量

平时正常容量一半

 

猜你喜欢

转载自blog.csdn.net/Cavalier520520/article/details/82941568
今日推荐