深度学习(花书)读书笔记——第二章-线性代数

第二章-线性代数

2.1 标量、向量、矩阵和张量

标量(scalar):一个标量就是一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。
向量(vector):一个向量是一列数。这些数是有序排列的。
                                                                               
矩阵(matrix):矩阵是一个二维数组。
                                                      

张量(tensor):在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。我们使用字体 A 来表示张量 “A’’。张量 A 中坐标为 (i, j, k) 的元素记作 A i,j,k。

转置(transpose):

                         

2.2 矩阵和向量相乘

C = AB:如果矩阵 A 的形状是 m × n,矩阵 B 的形状是 n × p,那么矩阵C 的形状是 m × p。

矩阵乘积服从分配律:A(B + C) = AB + AC

矩阵乘积也服从结合律:A(BC) = (AB)

不同于标量乘积,矩阵乘积并不满足交换律(AB = BA 的情况并非总是满足)。

矩阵乘积的转置:

两个向量的点积(dot product)满足交换律:

2.3 单位矩阵和逆矩阵

单位矩阵(identity matrix):所有沿主对角线的元素都是 1,而所有其他位置的元素都是0。

2.4 线性相关和生成子空间(p32)

2.5 范数

有时我们需要衡量一个向量的大小。在机器学习中,我们经常使用被称为 范数(norm)的函数衡量向量大小。

其中 p ∈ R,p ≥ 1

范数是将向量映射到非负值的函数。直观上来说,向量 x 的范数衡量从原点到点 x 的距离

当 p = 2 时,L2范数被称为 欧几里得范数(Euclidean norm)。它表示从原点出发到向量 x 确定的点的欧几里得距离。L2范数在机器学习中出现地十分频繁,经常简化表示为||x||略去了下标 2。平方L2 范数也经常用来衡量向量的大小,可以简单地通过点积xTx 计算。

注意:平方 L2 范数在数学和计算上都比 L2 范数本身更方便。例如,平方 L2 范数对x 中每个元素的导数只取决于对应的元素,而 L2 范数对每个元素的导数却和整个向量相关。但是在很多情况下,平方 L2 范数也可能不受欢迎,因为它在原点附近增长得十分缓慢。在某些机器学习应用中,区分恰好是零的元素和非零但值很小的元素是很重要的。在这些情况下,我们转而使用在各个位置斜率相同,同时保持简单的数学形式的函数:L1 范数。L1 范数可以简化如下:

当机器学习问题中零和非零元素之间的差异非常重要时,通常会使用 L1 范数。每当x 中某个元素从 0 增加 ε,对应的 L 1 范数也会增加 ε。

另外一个经常在机器学习中出现的范数是 L ∞ 范数,也被称为 最大范数(max norm)。这个范数表示向量中具有最大幅值的元素的绝对值:

有时候我们可能也希望衡量矩阵的大小。在深度学习中,最常见的做法是使用 Frobenius 范数(Frobenius norm),F-范数

2.6 特殊类型的矩阵和向量

对角矩阵(diagonal matrix)只在主对角线上含有非零元素,其他位置都是零。
对称(symmetric) 矩阵是转置和自己相等的矩阵。
单位向量(unit vector)是具有单位范数(unit norm)的向量: ||x||2=1.
正交矩阵(orthogonal matrix)是指 向量和列向量是分别标准正交的方阵: ATA=AAT=I.这意味着A-1=AT
所以正交矩阵受到关注是因为求逆计算代价小

2.7 特征分解

特征分解(eigendecomposition)是使用最广的矩阵分解之一,即我们将矩阵 分解成一组特征向量和特征值
方阵 A特征向量(eigenvector)是指 与 A 相乘后相当于对该向量进行缩放的非零向量 v :

每个实对称矩阵都可以分解成实特征向量和实特征值:

2.8 奇异值分解

奇异值分解(singular value decomposition, SVD),将矩阵分解为奇异向量(singular vector)和 奇异值(singular value)。通过奇异值分解,我们会得到一些与特征分解相同类型的信息。然而,奇异值分解有更广泛的应用。每个实数矩阵都有一个奇异值分解,但不一定都有特征分解。例如,非方阵的矩阵没有特征分解,这时我们只能使用奇异值分解。


        假设 A 是一个 m × n 的矩阵,那么 U 是一个 m × m 的矩阵,D 是一个 m × n的矩阵,V 是一个 n × n 矩阵。这些矩阵中的每一个经定义后都拥有特殊的结构。矩阵 U V 都定义为正交矩阵,而矩阵 D 定义为对角矩阵。注意,矩阵 D 不一定是方阵。

        对角矩阵 D 对角线上的元素被称为矩阵 A 的奇异值(singular value)。矩阵U 的列向量被称为左奇异向量(left singular vector),矩阵 V 的列向量被称 右奇异向量(right singular vector)。
        事实上,我们可以用与 A 相关的特征分解去解释 A 的奇异值分解。A 的 左奇异向量(left singular vector)是 AAT 的特征向量。 A 的 右奇异向量(right singularvector)是ATA的特征向量。A 的非零奇异值是ATA特征值的平方根,同时也是AAT 特征值的平方根。

2.9 Moore-Penrose 伪逆

对于非方矩阵而言,其逆矩阵没有定义。Moore-Penrose 伪逆(Moore-Penrose pseudoinverse)使我们在这类问题上取得了一定的进展。矩阵 A 的伪逆定义为:


计算伪逆的实际算法没有基于这个定义,而是使用下面的公式:


其中,矩阵 U,D V 是矩阵 A奇异值分解后得到的矩阵。对角矩阵 D 的伪逆D + 是其非零元素取倒数之后再转置得到的。

2.10 迹运算

迹运算返回的是矩阵对角元素的和:

迹运算因为很多原因而有用。若不使用求和符号,有些矩阵运算很难描述,而通过矩阵乘法和迹运算符号可以清楚地表示。例如,迹运算提供了另一种描述矩阵F-范数的方式:


用迹运算表示表达式,我们可以使用很多有用的等式巧妙地处理表达式。例如,迹运算在转置运算下是不变的:


多个矩阵相乘得到的方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的。当然,我们需要考虑挪动之后矩阵乘积依然定义良好:

即使循环置换后矩阵乘积得到的矩阵形状变了,迹运算的结果依然不变。例如,假设矩阵 A ∈ R m×n ,矩阵 B ∈ R n×m ,我们可以得到
尽管 AB ∈ R m×m 和 BA ∈ R n×n 。

另一个有用的事实是标量在迹运算后仍然是它自己:a = Tr(a)。

2.11 行列式

行列式,记作 det( A),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积。如果行列式是 1,那么这个转换保持空间体积不变。



                     



第二章-线性代数

2.1 标量、向量、矩阵和张量

标量(scalar):一个标量就是一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。
向量(vector):一个向量是一列数。这些数是有序排列的。
                                                                               
矩阵(matrix):矩阵是一个二维数组。
                                                      

张量(tensor):在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。我们使用字体 A 来表示张量 “A’’。张量 A 中坐标为 (i, j, k) 的元素记作 A i,j,k。

转置(transpose):

                         

2.2 矩阵和向量相乘

C = AB:如果矩阵 A 的形状是 m × n,矩阵 B 的形状是 n × p,那么矩阵C 的形状是 m × p。

矩阵乘积服从分配律:A(B + C) = AB + AC

矩阵乘积也服从结合律:A(BC) = (AB)

不同于标量乘积,矩阵乘积并不满足交换律(AB = BA 的情况并非总是满足)。

矩阵乘积的转置:

两个向量的点积(dot product)满足交换律:

2.3 单位矩阵和逆矩阵

单位矩阵(identity matrix):所有沿主对角线的元素都是 1,而所有其他位置的元素都是0。

2.4 线性相关和生成子空间(p32)

2.5 范数

有时我们需要衡量一个向量的大小。在机器学习中,我们经常使用被称为 范数(norm)的函数衡量向量大小。

其中 p ∈ R,p ≥ 1

范数是将向量映射到非负值的函数。直观上来说,向量 x 的范数衡量从原点到点 x 的距离

当 p = 2 时,L2范数被称为 欧几里得范数(Euclidean norm)。它表示从原点出发到向量 x 确定的点的欧几里得距离。L2范数在机器学习中出现地十分频繁,经常简化表示为||x||略去了下标 2。平方L2 范数也经常用来衡量向量的大小,可以简单地通过点积xTx 计算。

注意:平方 L2 范数在数学和计算上都比 L2 范数本身更方便。例如,平方 L2 范数对x 中每个元素的导数只取决于对应的元素,而 L2 范数对每个元素的导数却和整个向量相关。但是在很多情况下,平方 L2 范数也可能不受欢迎,因为它在原点附近增长得十分缓慢。在某些机器学习应用中,区分恰好是零的元素和非零但值很小的元素是很重要的。在这些情况下,我们转而使用在各个位置斜率相同,同时保持简单的数学形式的函数:L1 范数。L1 范数可以简化如下:

当机器学习问题中零和非零元素之间的差异非常重要时,通常会使用 L1 范数。每当x 中某个元素从 0 增加 ε,对应的 L 1 范数也会增加 ε。

另外一个经常在机器学习中出现的范数是 L ∞ 范数,也被称为 最大范数(max norm)。这个范数表示向量中具有最大幅值的元素的绝对值:

有时候我们可能也希望衡量矩阵的大小。在深度学习中,最常见的做法是使用 Frobenius 范数(Frobenius norm),F-范数

2.6 特殊类型的矩阵和向量

对角矩阵(diagonal matrix)只在主对角线上含有非零元素,其他位置都是零。
对称(symmetric) 矩阵是转置和自己相等的矩阵。
单位向量(unit vector)是具有单位范数(unit norm)的向量: ||x||2=1.
正交矩阵(orthogonal matrix)是指 向量和列向量是分别标准正交的方阵: ATA=AAT=I.这意味着A-1=AT
所以正交矩阵受到关注是因为求逆计算代价小

2.7 特征分解

特征分解(eigendecomposition)是使用最广的矩阵分解之一,即我们将矩阵 分解成一组特征向量和特征值
方阵 A特征向量(eigenvector)是指 与 A 相乘后相当于对该向量进行缩放的非零向量 v :

每个实对称矩阵都可以分解成实特征向量和实特征值:

2.8 奇异值分解

奇异值分解(singular value decomposition, SVD),将矩阵分解为奇异向量(singular vector)和 奇异值(singular value)。通过奇异值分解,我们会得到一些与特征分解相同类型的信息。然而,奇异值分解有更广泛的应用。每个实数矩阵都有一个奇异值分解,但不一定都有特征分解。例如,非方阵的矩阵没有特征分解,这时我们只能使用奇异值分解。


        假设 A 是一个 m × n 的矩阵,那么 U 是一个 m × m 的矩阵,D 是一个 m × n的矩阵,V 是一个 n × n 矩阵。这些矩阵中的每一个经定义后都拥有特殊的结构。矩阵 U V 都定义为正交矩阵,而矩阵 D 定义为对角矩阵。注意,矩阵 D 不一定是方阵。

        对角矩阵 D 对角线上的元素被称为矩阵 A 的奇异值(singular value)。矩阵U 的列向量被称为左奇异向量(left singular vector),矩阵 V 的列向量被称 右奇异向量(right singular vector)。
        事实上,我们可以用与 A 相关的特征分解去解释 A 的奇异值分解。A 的 左奇异向量(left singular vector)是 AAT 的特征向量。 A 的 右奇异向量(right singularvector)是ATA的特征向量。A 的非零奇异值是ATA特征值的平方根,同时也是AAT 特征值的平方根。

2.9 Moore-Penrose 伪逆

对于非方矩阵而言,其逆矩阵没有定义。Moore-Penrose 伪逆(Moore-Penrose pseudoinverse)使我们在这类问题上取得了一定的进展。矩阵 A 的伪逆定义为:


计算伪逆的实际算法没有基于这个定义,而是使用下面的公式:


其中,矩阵 U,D V 是矩阵 A奇异值分解后得到的矩阵。对角矩阵 D 的伪逆D + 是其非零元素取倒数之后再转置得到的。

2.10 迹运算

迹运算返回的是矩阵对角元素的和:

迹运算因为很多原因而有用。若不使用求和符号,有些矩阵运算很难描述,而通过矩阵乘法和迹运算符号可以清楚地表示。例如,迹运算提供了另一种描述矩阵F-范数的方式:


用迹运算表示表达式,我们可以使用很多有用的等式巧妙地处理表达式。例如,迹运算在转置运算下是不变的:


多个矩阵相乘得到的方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的。当然,我们需要考虑挪动之后矩阵乘积依然定义良好:

即使循环置换后矩阵乘积得到的矩阵形状变了,迹运算的结果依然不变。例如,假设矩阵 A ∈ R m×n ,矩阵 B ∈ R n×m ,我们可以得到
尽管 AB ∈ R m×m 和 BA ∈ R n×n 。

另一个有用的事实是标量在迹运算后仍然是它自己:a = Tr(a)。

2.11 行列式

行列式,记作 det( A),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积。如果行列式是 1,那么这个转换保持空间体积不变。



                     



猜你喜欢

转载自blog.csdn.net/leichangqing/article/details/89015453