损失函数

作用

在有监督的学习中，需要衡量神经网络输出和所预期的输出之间的差异大小。这种误差函数需要能够反映出当前网络输出和实际结果之间一种量化之后的不一致程度，也就是说函数值越大，反映出模型预测的结果越不准确。

还是拿练枪的Bob做例子，Bob预期的目标是全部命中靶子的中心，但他现在的命中情况是这个样子的：

最外圈是1分，之后越向靶子中心分数是2，3，4分，正中靶心可以得5分。

那Bob每次射击结果和目标之间的差距是多少呢？在这个例子里面，用得分来衡量的话，就是说Bob得到的反馈结果从差4分，到差3分，到差2分，到差1分，到差0分，这就是用一种量化的结果来表示Bob的射击结果和目标之间差距的方式。也就是误差函数的作用。因为是一次只有一个样本，所以这里采用的是误差函数的称呼。如果一次有多个样本，那么就要称呼这样子衡量不一致程度的函数就要叫做损失函数了。

以做线性回归的实际值和预测值为例，若自变量x是[-2, -1, 0, 1, 2]这样5个值，对应的期望值y是[-3, 0, 0, 3, 4]这样的值，目前预测使用的参数是(w, b) = (2, 1), 那么预测得到的值y_ = [-3, -1, 1, 3, 5], 采用均方误差计算这个预测和实际的损失就是 $\sum_{i = 0}^{4} (y [i] - y_{_} [i])^{2}$

那么常用的损失函数有哪些呢？
这里先给一些前提，比如神经网络中的一个神经元：

常用损失函数

MSE (均方误差函数)
该函数就是最直观的一个损失函数了，计算预测值和真实值之间的欧式距离。预测值和真实值越接近，两者的均方差就越小。

想法来源
在给定一些点去拟合直线的时候（比如上面的例子），常采用最小二乘法，使各个训练点到拟合直线的距离尽量小。这样的距离最小在损失函数中的表现就是预测值和真实值的均方差的和。
函数形式：
$l o s s = 1 2 \sum i ( y [ i ] - a [ i ] ) 2$ ,
其中， $a$
反向传播：
$\partial l o s s \partial z = \sum i ( y [ i ] - a [ i ] ) * \partial a [ i ] \partial$
缺点:
和 $\frac{\partial a [i]}{\partial z}$

在激活函数的两端，梯度（黄色）都会趋向于0，采取MSE的方法衡量损失，在 $a$

在这里我们可以参考activation中关于sigmoid函数求导的例子，假定x保持不变，只有一个输入的一个神经元，权重 $w = l n (9)$

保持参数统一不变，也就是学习率 $η = 0.2$

第一步，计算当前误差
$l o s s = 1 2 ( a - y ) 2 = 1 2 ( 0.9 - 0.5 ) 2 = 0.08$
第二步，求出当前梯度
$g r a d = (a - y) \times \partial a \partial z \partial z \partial w = ( a - y ) \times a \times ( 1 -$
第三步，根据梯度更新当前输入值
$w = w - η \times g r a d = l n (9) - 0.2 \times 0.036 = 2.161$
第四步，计算当前误差是否小于阈值（此处设为0.001)
$a = 1 1 + e - w x = 0.8967$
$l o s s = 1 2 ( a - y ) 2 = 0.07868$
第五步，重复步骤2-4直到误差小于阈值

[AI]神经网络章3　损失函数

损失函数

作用

常用损失函数

猜你喜欢

[AI]神经网络章3 损失函数

损失函数

作用

常用损失函数

猜你喜欢

[AI]神经网络章3　损失函数