What is the physical meaning of singular value (SVD) is?

Singular value matrix is ​​the concept of a mathematical sense, usually by a singular value decomposition (Singular Value Decomposition, SVD decomposition referred to) get. If you ask what is the physical meaning of the singular value representation, then we must consider different meaning in the singular value corresponding to the actual engineering applications. The following first try to avoid rigorous mathematical symbolic manipulation, intuitive from a picture, let's look at the singular value what they mean.


It was the goddess Juri Ueno (Ueno Juri) of a photo, height 450 pixels width * 333. Lick the screen to pause (GEEK face)  

                                                                                 

 

We all know that the picture actually corresponds with a matrix size of the matrix is the pixel size, such as order matrix corresponding to this picture is 450 * 333, the value of each element of the matrix corresponds to a pixel value. We remember this pixel matrix A

Now we have a matrix A singular value decomposition. Intuitively, the singular value decomposition of the matrix into several matrices and a rank, is represented by the formula:

Wherein each of the front right coefficient equation is singular values, and respectively represent column vectors, mean rank of a matrix is a matrix of rank 1. Each notice is a matrix of rank 1. We assume that the singular values satisfy  (singular value greater than 0 is an important nature, but do not worry here first). If not, then you can rearrange the order, which is nothing more than question number order.


Since the singular values ​​are arranged in descending order, we naturally have to ask, if only to retain a large singular values, rounding the smaller singular values, so that (1) in the natural equation no longer holds, it will be What kind of matrix - that is the image?

So , only to retain (1) the first term moderate right-hand side, and then mapping:

                                                                                 

The result is totally unclear is what ...... We tried a few more than the increase came in:

And then mapping

                                                           

 

This is vaguely discernible short hair gal coconut face ...... but still very vague, after all, we only took five singular values only. Here we try to take the singular values 20, that is, (1) RHS from the former 20 composed of A 20 is

                                                           

虽然还有些马赛克般的模糊,但我们总算能辨别出这是Juri酱的脸。当我们取到(1)式等式右边前50项时:

                                                           

我们得到和原图差别不大的图像。也就是说当k从1不断增大时,不断的逼近A。让我们回到公式

                                                                      

矩阵A表示一个450*333的矩阵,需要保存个元素的值。等式右边分别是450*1和333*1的向量,每一项有元素。如果我们要存储很多高清的图片,而又受限于存储空间的限制,在尽可能保证图像可被识别的精度的前提下,我们可以保留奇异值较大的若干项,舍去奇异值较小的项即可。例如在上面的例子中,如果我们只保留奇异值分解的前50项,则需要存储的元素为,和存储原始矩阵A相比,存储量仅为后者的26%。

 

下面可以回答题主的问题:奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关。每个矩阵A都可以表示为一系列秩为1的“小矩阵”之和,而奇异值则衡量了这些“小矩阵”对于A的权重。

在图像处理领域,奇异值不仅可以应用在数据压缩上,还可以对图像去噪。如果一副图像包含噪声,我们有理由相信那些较小的奇异值就是由于噪声引起的。当我们强行令这些较小的奇异值为0时,就可以去除图片中的噪声。如下是一张25*15的图像(本例来源于[1])

                                                                                 

但往往我们只能得到如下带有噪声的图像(和无噪声图像相比,下图的部分白格子中带有灰色):                                                    

                                                                                   

通过奇异值分解,我们发现矩阵的奇异值从大到小分别为:14.15,4.67,3.00,0.21,……,0.05。除了前3个奇异值较大以外,其余奇异值相比之下都很小。强行令这些小奇异值为0,然后只用前3个奇异值构造新的矩阵,得到

                                                                                  

可以明显看出噪声减少了(白格子上灰白相间的图案减少了)。

奇异值分解还广泛的用于主成分分析(Principle Component Analysis,简称PCA)和推荐系统(如Netflex的电影推荐系统)等。在这些应用领域,奇异值也有相应的意义。

考虑题主在问题描述中的叙述:“把m*n矩阵看作从m维空间到n维空间的一个线性映射,是否:各奇异向量就是坐标轴,奇异值就是对应坐标的系数?”我猜测,题主更想知道的是奇异值在数学上的几何含义,而非应用中的物理意义。下面简单介绍一下奇异值的几何含义,主要参考文献是美国数学协会网站上的文章[1]。

下面的讨论需要一点点线性代数的知识。线性代数中最让人印象深刻的一点是,要将矩阵和空间中的线性变换视为同样的事物。比如对角矩阵作用在任何一个向量上

                                                                                 

其几何意义为在水平方向上拉伸3倍,方向保持不变的线性变换。换言之对角矩阵起到作用是将水平垂直网格作水平拉伸(或者反射后水平拉伸)的线性变换

 

                                                                                 

                                                                                 

 

如果不是对角矩阵,而是一个对称矩阵

                                                                                 

那么,我们也总可以找到一组网格线,使得矩阵作用在该网格上仅仅表现为(反射)拉伸变换,而没有旋转变换

 

                                                                                 

                                                                                 

 

考虑更一般的非对称矩阵

                                                                                 

很遗憾,此时我们再也找不到一组网格,使得矩阵作用在该网格上之后只有拉伸变换(找不到背后的数学原因是对一般非对称矩阵无法保证在实数域上可对角化,不明白也不要在意)。我们退求其次,找一组网格,使得矩阵作用在该网格上之后允许有拉伸变换和旋转变换,但要保证变换后的网格依旧互相垂直。这是可以做到的

                                                                                 

                                                                                 

下面我们就可以自然过渡到奇异值分解的引入。奇异值分解的几何含义为:对于任何的一个矩阵,我们要找到一组两两正交单位向量序列,使得矩阵作用在此向量序列上后得到新的向量序列保持两两正交。下面我们要说明的是,奇异值的几何含义为:这组变换后的新的向量序列的长度。

 

                                                                                 

                                                                                 

 

当矩阵作用在正交单位向量上之后,得到也是正交的。令
分别是和方向上的单位向量,即,写在一起就是,整理得:

                                               
这样就得到矩阵的奇异值分解。奇异值分别是和的长度。很容易可以把结论推广到一般维情形。


下面给出一个更简洁更直观的奇异值的几何意义(参见[2])。先来一段线性代数的推导,不想看也可以略过,直接看黑体字几何意义部分:
假设矩阵A的奇异值分解为

                                                                                 

其中是二维平面的向量。根据奇异值分解的性质,线性无关,线性无关。那么对二维平面上任意的向量,都可以表示为:
A作用在上时,

                                        

 

,我们可以得出结论:如果是在单位圆上,那么正好在椭圆上。这表明:矩阵A将二维平面中单位圆变换成椭圆,而两个奇异值正好是椭圆的两个半轴长,长轴所在的直线是,短轴所在的直线是

推广到一般情形:一般矩阵A将单位球变换为超椭球面那么矩阵A的每个奇异值恰好就是超椭球的每条半轴长度。
 


                                                       

Guess you like

Origin blog.csdn.net/qq_30263737/article/details/91868146