cs231n 学习 -- Lecture 3 Loss Functions and Optimization

上节课末解释了权值 W 的意义，这节主要讲 $f$ 函数的评价方法及优化，是吴恩达的机器学习课程中相关知识的深化和补充吧。

这里介绍了两种常见的评价方法：Multiclass Support Vector Machine loss and Softmax classifier.

Multiclass Support Vector Machine loss

这里直接给出表达式：

$L = \frac{1}{N} \sum_{i} L_{i} + \lambda \mathbf{R}(\mathbf{W})$

$L_{i} = \sum _{j\neq y_{i}} max(0, s_{j} - s_{y_{i}} + \Delta )$

$s_{j} = \mathbf{\mathit{f}}(x_{i},W)_{j}$

$R(W) = \sum _{k} \sum _{l} W_{k,l}^{2}$ L2 Regularization

关于 Δ 有如下解释，个人理解为一个阈值范围，在实际应用中一般初始化为1.0。

对 $L_{i}$ 运算给出如下例子，给定3个图片，得到每个图片在3个类上的判定分数。在机器学习中，max(0, - ) 通常被称为 hinge loss，用于最大间距分类，尤其是SVM。

对于正则化，在机器学习中用来解决过度拟合问题，可以让模型更加简洁。

为什么是L2 Regularization，而不是L1 Regularization $R(W) = \sum _{k} \sum _{l} \left |W_{k,l} \right |$ ，例如输入向量 $x = [1, 1, 1, 1]$ ，权值 $w_{1} = [1, 0, 0, 0]$ ， $w_{1} = [1, 0, 0, 0]$ ，则 $w_{1}^{T}x = w_{2}^{T}x = 1$ ，但是 $w_{2}$ 具有更低的损失(代价)，因此L2 Regularization是优选的，正则化L2惩罚倾向于使用更小且更具扩散的权重向量，因此鼓励最终的分类器将所有输入维度考虑到少量而不是几个输入维度并且非常强烈。正如我们将在后面看到的，这种效果可以提高分类器在测试图像上的泛化性能，并减少过度拟合。

Softmax classifier

二元 logistic 回归泛化到多类即为softmax classifier。将 hinge loss 替换为 cross-entropy loss，得到如下形式：

$L_{i} = -log(\frac{e^{f_{y_{i}}}}{\sum _{j} e^{f_{j}}})$ or $L_{i} = -f_{y_{i}} + log\sum _{j}e^{f_{j}}$

从概率的角度来解释，对于 $P(y_{i}|x_{i};W) = \frac{e^{f_{y_{i}}}}{\sum _{j} e^{f_{j}}}$ ，相当于给定 $x_{i}$ ，通过 $W$ 能正确标记到 $y_{i}$ 的概率，对于 $L_{i}$ ，我们最小化了正确类的负对数似然，这可以解释为执行最大似然估计(MLE)。原理性的东西提到的不是很多，下去再补吧。