1、特征值与特征向量的意义解释
矩阵乘法其实是对应着一个线性变换,是把任意一个向量变成另一个方向或者长度的新向量。在这个变换中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,而不对这些向量产生旋转效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。
特征向量与特征值对于一个矩阵的意义,每一个特征向量都对应着这个矩阵在对另一个对象作线性变换时所产生变换的方向,而特征值则表示着这个变化的大小。也就是说,矩阵A的信息可以由其特征值和特征向量表示。对于矩阵为高维的情况下,这个变换就对应着很多方向的变化,我们通过特征值分解得到的对应特征值较大的前N个特征向量,便表示了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向,就可以近似这个矩阵的变换,而著名的主成分分析(Principle Conponent Analysis,PCA)便是基于这一原理实现的。
总而言之,通过特征值分解我们可以得到特征值与特征向量,特征向量表示这个特征是什么,而特征值表示着这个特征有多重要。同时,我们要意识到特征值分解也有一定的局限性,它的对象必须是方阵,而实际中的矩阵往往不是方阵,后面要说的奇异值分解将其演化到了普通形式的矩阵。
2、相似矩阵的定义
设A、B是两个n阶方阵,如果存在可逆矩阵T,使得 T−1AT=BT−1AT=B 则称A与B相似,记作A~B,从A到B的这种变化称为相似变换,T称为相似变换矩阵。
矩阵的相似关系是一种等价关系(并不是相等),相似矩阵满足以下特性
- 自反性:A~A
- 对称性:若A~B,则B~A
- 传递性:若A~B,B~A,则A~C
3、相似对角化的条件与推论
N阶方阵A与对角阵相似的前提是:A有N个线性无关的特征向量。可以对角化即意味着存在某组基,使得这个矩阵所代表的线性变换在这组基的每一个方向上都是伸缩变换(复向量上的复“伸缩变换“近似于在某种意义上非刚性但依然线性的伸缩旋转),不能对角化即意味着找不到这样一组基
注:对于相似变换来说,有一些东西是变换前后没有改变的
4、相似对角化与特征值分解的区别
相似对角化与特征值分解乍看上去是极为相似的,它们都需要用到特征值与特征向量的概念,但其实有较大差别
目的:特征值分解的目的在于矩阵分解,求得矩阵对应的特征值与特征向量;而相似对角化的目的在于通过变换矩阵的线性变换将原方阵转换为对角矩阵
条件:所有的方阵都可以进行特征值分解得到对应的特征值与特征向量;只有当方阵的几何重数与代数重数相等(方阵的最小多项式无重根)时,方阵才可以实现对角化
结果:通过特征值分解得到的特征向量与特征值可以构成对角标准型与jordan标准型(前者是后者的特例),其中Jordan标准型不是对角矩阵;而相似对角化得到的矩阵一定是对角矩阵
5、QR分解的应用
QR分解在实际工程问题中得到了广泛的应用,其核心还是围绕着利用QR分解求解矩阵的特征值进行的,这里列举出一些常见的例子
6、Schur分解
基于QR分解我们可以推导出Schur分解,同时,Schur分解也是很多重要理论推导的基石,是很多重要定理证明的出发点。在介绍Schur分解之前,我们需要先了解一下什么是酉矩阵(unitary matrix)
对于一个矩阵 UϵFn×mUϵFn×m ,如果 UHU=IUHU=I (H为共轭转置)我们便称 U为一个等距
(isometry),它的所有列向量是正交的。等距
作为一个线性变换时是保内积运算,同时也是保模长运算,即
“协等距”(co-isometry)
对于一个矩阵 UϵFn×mUϵFn×m ,如果 UUH=IUUH=I 我们便称 U为一个协等距
(isometry),它的所有的行向量是正交的。
酉矩阵(unitary matrix)
一个矩阵如果既满足等距,又满足协等距,我们便就称它为酉矩阵,它的最大特点在于U−1=UHU−1=UH。酉矩阵其实是正交矩阵在复数域上的推广,它满足
Schur分解的定义
任何N阶复方阵酉相似于一个上三角矩阵。具体定义看参考博文
Schur分解的缺陷
Schur分解将原方阵转化为了一个对角线为特征值的上三角矩阵,在这一章节的开头已经说过Schur分解是很多重要定理推导的基石与出发点。但是矩阵的Schur分解,在更多意义上是一种理论上的存在,在实际中通常不方便通过有限次运算得到,真正要计算时,一般也是通过迭代的方法进行逼近
7、奇异值分解(SVD)
奇异值分解为我们提供了一种可以用于任意矩阵分解的方法。具体看参考博文
奇异值的计算
对于较小维度的矩阵,我们可以从奇异值分解的推导中看出,奇异值δi=λi−−√。于是可以通过求解原矩阵的转置与其自身相乘得到的矩阵的特征值,再对该特征值求平方根的方法求得矩阵的奇异值
高维度的矩阵的奇异值的计算是一个难题,是一个O(N^3)的算法,随着规模的增长,计算的复杂度会呈现出3次方的扩大,感兴趣的朋友可以看这里
奇异向量的计算
在奇异值分解中,有一个十分重要的推论,那就是在式
A=UΛVT里, U的列向量为AAT的特征向量,V的列向量为ATA的特征向量。知道这一推论,我们在计算出特征值之后就可以较为方便的求出矩阵的特征向量
奇异值分解的意义
奇异值分解的目的在于,找到一组正交基,使得矩阵在变换过后是正交的,这是奇异值分解的精髓所在。
比如,原图的维度远远超过10000维,而通过奇异值分解,从上图可以看出,我们只需要保留前50项,就可以很好的复原图像,即实现图像的压缩。除了实现对图像的压缩外,奇异值分解在好友推荐算法,工业过程故障诊断等领域均有广泛应用。
参考文献:
- 特征值分解部分
[1] http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html
[2] http://blog.csdn.net/jinshengtao/article/details/18448355
[3] https://wenku.baidu.com/view/3ec0a4ddaeaad1f346933f42.html
[4] http://www.doc88.com/p-9009713157157.html
[5] https://wenku.baidu.com/view/f14c18215901020207409c97.html
[6] https://www.zhihu.com/question/22548386
[7] https://github.com/LiangjunFeng/Machine-Learning/blob/master/8.PCA.py
[8] Bhushan Datta K. Linear system theory and design, by Chi‐Tsong Chen, Oxford University Press, New York, 1999, 334 pages, ISBN 0‐19‐511777‐8[J]. International Journal of Robust & Nonlinear Control, 2015, 10(15):1360-1362. - 相似对角化部分
[1] https://wenku.baidu.com/view/c22c4a708e9951e79b892760.html
[2] https://www.zhihu.com/question/36187051
[3] https://wenku.baidu.com/view/347b97466edb6f1aff001f98.html
[4] https://wenku.baidu.com/view/21cd4a9f32d4b14e852458fb770bf78a65293ac2.html
[5] https://en.wikipedia.org/wiki/Shear_stress
[6] http://www.doc88.com/p-7178359679199.html
[7] https://wenku.baidu.com/view/f83d600084254b35effd3401.html
[8] https://wenku.baidu.com/view/41a43f0316fc700abb68fca5.html
[9] https://en.wikipedia.org/wiki/Orthogonal_matrix - QR分解部分
[1] https://wenku.baidu.com/view/bf00c82cf8c75fbfc77db2da.html
[2] http://blog.sina.com.cn/s/blog_3f41287a0101ke2s.html
[3] http://blog.csdn.net/zhaogang1993/article/details/42562009
[4] http://johnhany.net/2016/05/from-qr-decomposition-to-pca-to-face-recognition/ - Schur分解部分
[1] https://baike.baidu.com/item/%E9%85%89%E7%9F%A9%E9%98%B5/2967660
[2] https://wenku.baidu.com/view/65aff9174431b90d6c85c7b9.html
[3] https://wenku.baidu.com/view/257d4dc10722192e4436f654.html
[4] http://www.doc88.com/p-6791891160524.html
[5] http://blog.csdn.net/makeway123/article/details/17803991
[6] https://www.zhihu.com/question/20903131 - 奇异值分解部分
[1] http://blog.csdn.net/zhongkejingwang/article/details/43053513
[2] https://www.zhihu.com/question/22237507
[3] http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html
[4] http://blog.csdn.net/jinshengtao/article/details/18448355
[5] https://wenku.baidu.com/view/38693ef2e109581b6bd97f19227916888486b916.html
[6] https://wenku.baidu.com/view/3ec0a4ddaeaad1f346933f42.html
[7] http://www.cnblogs.com/liangzh/archive/2013/03/05/2841025.html
[8] http://www.ams.org/samplings/feature-column/fcarc-svd
[9] http://charleshm.github.io/2016/03/Singularly-Valuable-Decomposition/
[10] http://blog.csdn.net/zhuiqiuk/article/details/69390357