Hinge Loss 解释

SVM 求解使通过建立二次规划原始问题，引入拉格朗日乘子法，然后转换成对偶的形式去求解，这是一种理论非常充实的解法。这里换一种角度来思考，在机器学习领域，一般的做法是经验风险最小化 （empirical risk minimization,ERM），即构建假设函数（Hypothesis）为输入输出间的映射，然后采用损失函数来衡量模型的优劣。求得使损失最小化的模型即为最优的假设函数，采用不同的损失函数也会得到不同的机器学习算法，比如这里的主题 SVM 采用的是 Hinge Loss ，Logistic Regression 采用的则是负 Logistic 损失。

$L(Y,P(Y|X)) = - \log P(Y|X)$

从二项分布的角度来考虑 Logistic 回归：

$\begin{aligned} P(Y=1|X) &= \frac{1}{1 + e^{- \theta^T x}}\\ P(Y=0|X) &= 1- P(Y=1|X) \end{aligned}$

这里另 $z = \theta^Tx$ , $\sigma$ 为 sigmoid 映射，则：

$E(z) = - \log (\sigma(z))$

$E(z)$ 的图形如下图的红色曲线，可见 $z\gg 0$ ， $E(z)$ 的取值越小，即损失越小。反之另：

$E(z) = - \log (1-\sigma(z))$

此时得到的图像应该为关于 $E(z)$ 对称的红色的线（没画出），此时 $z\ll 0$ ， $E(z)$ 的取值越小，即损失越小。

注：图中绿色的线为 Square Loss ，蓝色的线为 Hinge Loss，红的的线为负 Logistic 损失，黑色的线为0-1损失。

二分类问题

给定数据集 $T = \left \{ (x_i,y_i)\right \}_{i=1}^N$ ，要用这些数据做一个线性分类器，即求得最优分离超平面 $w\cdot x + b = 0$ 来将样本分为正负两类，给定数据集后只需求得最优的参数 $w , b$ 即可，为了解决这个问题，首先做出如下线性映射函数

$y = w^T \cdot x + b$

根据经验风险最小化原则，这里引入二分类的 Hinge Loss :

$max(0, 1- y_i(w^T \cdot x_i + b))$

上图中对应的 $E(z) = max(0,1-z)$ ，所以SVM可以通过直接最小化如下损失函数二求得最优的分离超平面：

$\min_{w,b} \sum_{i=1}^N max(0, 1- y_i(w^T \cdot x_i + b)) + \lambda ||w||^2$

$\lambda ||w||^2$ 相当于一个L2正则项。

多分类问题

对于多分类问题依旧使用的是One VS All策略

从LR到SVM

接下来将重点讲LR与SVM损失函数之间的关系，参考Andrew NG教授的课件。

在下面的推导中标签被分为两类，非0即1.

support vector machine:

观察可以发现，两者极为相似。SVM在LR之上做了两处改动：

SVM对整体损失乘了样本数（m），并将正则化因子 $\lambda$ 移到了前头，改成了C（ $C=1/\lambda$ ）.
SVM将损失函数由对数损失函数改成了Hinge Loss.其中 $cost_1(\theta^Tx^{(i)})=max(0,1-\theta^Tx^{(i)})$ , $cost_0(\theta^Tx^{(i)})=max(0,1+\theta^Tx^{(i)})$