第一章 计算机安全与性能 — 计算机可靠性

1. 计算机可靠性概述

计算机系统的硬件故障通常是由元器件的失效引起的。

  • 可靠性:是指从它开始运行(t=0)到某时刻 t 这段时间内能正常运行的概率,用R(t)表示。
  • 失效率:是指单位时间内失效的元件数与元件总数的比例,用 λ \lambda λ 表示。
  • λ \lambda λ为常数时,可靠性与失效率的关系为:
    R ( t ) = e − λ ∗ t R(t)=e^{-\lambda*t} R(t)=eλt

失效率特征如下图:

  • 平均无故障时间(MTBF):
    M T B F = 1 λ MTBF=\dfrac {1}{\lambda } MTBF=λ1

  • 通常用平均修复时间(MTRF,也成为计算机的维修效率):
    指从故障发生到机器修复平均所需要时间。

  • 可用性 A :
    A = E T B F M T B F + M T R T A=\dfrac {ETBF}{MTBF+MTRT} A=MTBF+MTRTETBF

  • RAS :是指用可靠性 R 、可用性 A 和可维修性S这3个指衡量一个计算机系统。

2. 计算机可靠性模型

2-1 串联系统

且仅当所欲的子系统都能正常工作时,系统才正常工作。

  • 可靠性( R R R):( R 1 R 2 R_{1}R_{2} R1R2 表示子系统)
    R = R 1 R 2 … R N R=R_{1}R_{2}\ldots R_{N} R=R1R2RN

  • 失效率( λ \lambda λ):( λ 1 λ 2 \lambda _{1}\lambda _{2} λ1λ2 表示子系统的失效率)
    λ = λ 1 + λ 2 + … + λ N \lambda =\lambda _{1}+\lambda _{2}+\ldots +\lambda _{N} λ=λ1+λ2++λN

2-2 并联系统

只要有一个子系统正常工作,系统就能正常运行。

  • 可靠性( R R R):( R 1 R 2 R_{1}R_{2} R1R2 表示子系统)
    R = 1 − ( 1 − R 1 ) ( 1 − R 2 ) … ( 1 − R N ) R=1-\left( 1-R_{1}\right) \left( 1-R_{2}\right) \ldots \left( 1-R_{N}\right) R=1(1R1)(1R2)(1RN)

  • 子系统的失效率均为 λ \lambda λ,则系统的失效率 μ \mu μ为:
    μ = 1 1 λ ∑ j = 1 N 1 j \mu =\dfrac {1}{\dfrac {1}{\lambda }\sum ^{N}_{j=1}\dfrac {1}{j}} μ=λ1j=1Nj11

  • 案例:

2-3 N 模冗余系统

由N个(N=2n+1)相同的子系统和一个表决器组成。
只要有 n+1 个或 n+1 个以上的子系统能正常工作,系统就正常工作。

  • 每个子系统的可靠性为 R 0 R_0 R0,则 N N N模冗余系统的可靠性为:
    R = ∑ i = n + 1 N ( j N ) × R 0 i ( 1 − R 0 ) N − i R=\sum ^{N}_{i=n+1}\begin{pmatrix} j \\ N \end{pmatrix}\times R^{i}_{0}( 1-R_{0}) ^{N-i} R=i=n+1N(jN)×R0i(1R0)Ni
    其中, ( j N ) \begin{pmatrix} j \\ N \end{pmatrix} (jN) 表示从 N 个元素中取 i 个元素的组合数。

  • 提高可靠性:提高元器件数量;发展容错技术。

猜你喜欢

转载自blog.csdn.net/qq_40120946/article/details/108015728