深度学习之梯度下降法

目录

监督学习中的线性模型

线性单元

线性单元的目标函数

梯度下降法


监督学习中的线性模型

线性单元

线性单元示意图:

 对于Net input function,其求和公式模型可以表示为:

y=h(x)=\mathbf{w}^{T}\mathbf{x}

即为线性模型,输出y是输入特征x_{1},x_{2},...,x_{m}的线性组合。

图中的Activation function是f(x)=x,也可以换成sigmoid函数等其他的激活函数。

线性单元的目标函数

对于监督学习,我们能够知道一个样本的特征\mathbf{x},以及标记y。同时,我们还可以根据模型h(x)计算得到输出\bar{y}。现,用y表示训练样本里面的标记,也就是实际值;用带上划线的\bar{y}表示模型计算的出来的预测值。当然,两者的值越接近越好。

最经典的,用误差的平方的二分之一来表示两者的接近程度:

上式表示的是单个样本的误差,对于n个样本,可以用所有样本的误差平方的和来表示目标函数(损失函数):

其中:

对于特定的样本数据集,(x^{i},y^{i})(x^{(i)},y^{(i)})的值都是已知的,所以目标函数是参数\mathbf{w}的函数:


梯度下降法

梯度:在高等数学中定义为一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。所以,当朝着梯度的反方向来修改自变量,则目标函数向局部最小值逼近。

 

当目标函数为凸函数(局部最优即为全局最优)时,梯度下降法的解是全局最优解。

但一般情况下,不保证是全局最优解,下降速度也未必最快。

优化思想:用当前位置的负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向。

梯度\triangledown E(\mathbf{w})为目标函数E(\mathbf{w})关于各个自变量的偏导数:

             (和的导数等于导数的和)

根据求导链式法则,可以得到:


缺点:

  • 靠近极小值时收敛速度减慢
  • 直线搜索时可能产生一些问题;
  • 可能会走之字型下降

猜你喜欢

转载自blog.csdn.net/Doutd_y/article/details/82215484