瑞丽商 (Rayleigh quotient) 两种启发式证明

瑞丽商定义如下:

R ( A , x ) = x A x x x R(A, x)=\frac{x^{*} A x}{x^{*} x}
其中矩阵 A A n × n n \times n 的对称矩阵(Hermitian)。

有:
max x 0 x H A x x H x = max x H x = 1 x H A x x H x = λ m a x min x 0 x H A x x H x = min x H x = 1 x H A x x H x = λ m i n \begin{aligned} &\max _{\boldsymbol{x} \neq 0} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\max _{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}=1} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\boldsymbol{\lambda}_{\mathrm{max}}\\ &\min _{\boldsymbol{x} \neq 0} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\min _{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}=1} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\lambda_{\mathrm{min}} \end{aligned}

证明1:

因为 A A 为对称矩阵,可特征分解为 A = V T Σ V A= V^T\Sigma V V = [ v 1 , . . . , v n ] V = [v_1,..., v_n] , Σ = d i a g ( λ 1 , . . . , λ n ) \Sigma=\mathrm{diag}(\lambda_1,...,\lambda_n) 。不妨设 λ 1 λ 2 . . . λ n \lambda1 \ge \lambda_2 \ge ...\ge \lambda_n

对原式进行如下展开。可得

R ( A , x ) = x A x x x = i = 1 n λ i y i 2 i = 1 n y i 2 R(A, x)=\frac{x^{*} A x}{x^{*} x}=\frac{\sum_{i=1}^{n} \lambda_{i} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}

显然有:
λ 1 = i = 1 n λ 1 y i 2 i = 1 n y i 2 i = 1 n λ i y i 2 i = 1 n y i 2 i = 1 n λ n y i 2 i = 1 n y i 2 = λ n \lambda_1 = \frac{\sum_{i=1}^{n} \lambda_{1} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}\le\frac{\sum_{i=1}^{n} \lambda_{i} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}\le\frac{\sum_{i=1}^{n} \lambda_{n} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}=\lambda_n

得证。
同时: 当且仅当 y 1 = 0 , . . . y n 1 = 0 y_1=0,...y_{n-1}=0 成立时,等号成立,取到最大值。 因此,当 x x A A 的最大特征向量时,瑞丽商最大,为最大特征值。

证明2:

易见,我们可以引入一个限制条件而不影响瑞丽商的结果: x T x = 1 x^Tx=1

将这个限制条件用拉格朗日乘子法加入目标函数,有:

L = R ( A , x ) + λ ( x T x 1 ) = x T A x + λ ( x T x 1 ) L = R(A, x) + \lambda (x^{T}x-1) = x^{T} A x+ \lambda (x^{T}x-1) .

x x 求导,有 A x + λ x = 0 Ax+\lambda x=0 时取到极值。 那么显然, x x A A 的特征向量(特征分解的定义)。注意这里的 λ \lambda 是拉格朗日乘子,而不是特征值。

由此,可知 x x A A 的特征向量后, x T A x x^{T} A x 的结果就是对应的特征值。
证毕。

拓展

X \mathrm{X} 为矩阵时
求解R的最值:
R ( A , X = t r ( X T A X ( X T X ) 1 ) R(A, \mathrm{X})=\mathrm{tr}({\mathrm{X}^{T} A \mathrm{X}}({\mathrm{X}^{T} \mathrm{X}})^{-1})

X = U Σ V T \mathbf{X}=U\Sigma V^T 为特征值分解。

R = tr ( V T U A U T V T ( V Σ T Σ V T ) 1 ) = tr ( T U A U T Σ ( Σ T Σ ) 1 ) = tr ( U A U T [ I 0 ] [ I 0 ] ) = tr ( Q T A Q ) Q = U T [ I 0 ] \begin{aligned} &R=\operatorname{tr}\left(\mathrm{V} \sum^{T} U A U^{T} \sum V^{T}\left(V \Sigma^{T} \Sigma V^{T}\right)^{-1}\right)\\ &=\operatorname{tr}\left(\sum^{T} U A U^{T} \Sigma\left(\Sigma^{T} \Sigma\right)^{-1}\right)\\ &=\operatorname{tr}\left(U A U^{T}\left[\begin{array}{l} {I} \\ {0} \end{array}\right]\left[\begin{array}{ll} {I} & {0} \end{array}\right]\right)\\ &=\operatorname{tr}\left(Q^{T} A Q\right)\\ &Q=U^{T}\left[\begin{array}{l} {I} \\ {0} \end{array}\right] \end{aligned}

这说明,我们可以直接最后的式子 tr ( Q T A Q ) \operatorname{tr}\left(Q^{T} A Q\right) 。显然 Q T Q = I Q^TQ=I 。因此,对比R的原始式子,我们可以从一开始就增加限制条件, X T X = I X^TX=I

进一步使用拉格朗日方法可知, X X 是由特征向量构成的矩阵。

发布了43 篇原创文章 · 获赞 85 · 访问量 72万+

猜你喜欢

转载自blog.csdn.net/weixin_39274659/article/details/103818469