吴恩达机器学习课程笔记3

矩阵相关知识

prediction=DataMatrix✖parameters(预测值=数据✖参数),如图所示。

在这里插入图片描述

多元梯度下降法

前面我们介绍的梯度下降法只涉及了一个自变量,但在现实生活中的问题中可能会出现多个变量。例如房子的大小,房间的数目,楼层的高低和房子的新旧都会对房价有一定的影响。

在这里插入图片描述这种情况下我们对应的假设函数、代价函数和梯度下降都应该相应的变化。

在这里插入图片描述在这里插入图片描述在多元梯度下降法中有两个常用的小技巧,一个是特征缩放,一个是对于学习率阿尔法a的选取
特征缩放适用于我们有多个变量但是不同变量的范围不同,甚至是相差很多。那么我们希望让不同的变量的取值范围是相同的,就要进行特征缩放。
在这里插入图片描述通过图片我们可以看出特征缩放前梯度下降的过程非常的缓慢,甚至会来回的震荡,但是特征缩放后,梯度下降的速度就会变快,迭代的次数也会更小,相对来说,找到了一条更加直接的途径。我们常用的特征缩放方法就是均值归一化。
在这里插入图片描述其中的S1我们可以选取最大值减去最小值,也可以用标准方差。

学习率阿尔法的选取
梯度下降如果正常工作,那么它的图形应该是随着迭代次数的增加,代价函数会越来越小,直到趋于不变。也可以用过比较代价函数的大小是否小于某个数值来确定。

在这里插入图片描述
但是如果代价函数随着迭代次数的增加慢慢变大或者出现了震荡的情况,那么很有可能是学习率阿尔法的选取偏大,我们应该减小阿尔法。

在这里插入图片描述正常来说,只要阿尔法选取的足够小,那么代价函数一定是随着迭代次数增加而减小的。但是阿尔法的选择如果太小,就会造成梯度下降非常慢,所以选择阿尔法时可以0.001、0.003、0.01、0.03。。。。这样的尝试选择。

正规方程

正规方程是要一步求解出参数的最优值,不同于梯度下降的多步迭代的方法,也不需要进行特征缩放。
可以看出在这里插入图片描述可以看出我们通过一个式子就求出参数,其中有种特殊的情况就是X的转置✖X是不可逆的状态,我们成这样的矩阵是奇异矩阵或者退化矩阵,造成这种现象可能原因是变量的选取中有变量是相关的,或者就是变量的选取太多造成的。但其实这种情况比较少见,就算出现了pinv也可以求出伪逆。
接下来我们可以比较一下梯度下降法和正规方程:梯度下降法需要选择学习率并且要迭代多步,这些正规方程都不需要。但是如果变量n太大,那么计算逆矩阵就很麻烦。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/xieyuxin0816/article/details/112880467
今日推荐