可以从以下三个方面努力:
努力做到不出故障(故障频率要低)
1) 注意对下游的依赖
2) 注意自己的逻辑
3) 注意上游的调用平均无故障时间(Mean Time Between Failures, MTBF):系统平均能够运行多长时间,才发生一次故障。
故障的范围要小
注意隔离故障恢复时间要短
注意监控(发现问题)
注意增加定位手段(定位问题)
快速解决问题平均修复时间 (Mean Time to Repair, MTTR): 系统从故障状态转到正常状态所需时间的平均值
可以从以下三个方面努力:
努力做到不出故障(故障频率要低)
1) 注意对下游的依赖
2) 注意自己的逻辑
3) 注意上游的调用
平均无故障时间(Mean Time Between Failures, MTBF):系统平均能够运行多长时间,才发生一次故障。
故障的范围要小
注意隔离
故障恢复时间要短
注意监控(发现问题)
注意增加定位手段(定位问题)
快速解决问题
平均修复时间 (Mean Time to Repair, MTTR): 系统从故障状态转到正常状态所需时间的平均值