机器学习中的损失函数

损失函数是机器学习中用来衡量模型预测值 $F(x)$ 和真实值 $Y$ 之间的不一致程度的，通常越小越好。损失函数通常由经验风险和正则化项组成：

J (θ) = 1 N \sum i = 1 N L (y i, f (x i; θ)) + λ Φ (θ)

$J(\theta) = \frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i;\theta)) + \lambda \Phi(\theta)$
第一项是经验风险，后面是正则化项，正则化项通常有L1正则化和L2正则化，这里不考虑正则化项，只考虑经验风险项，损失函数通常由以下几种：

平方损失函数

平方损失函数常用在最小二乘法中。它的思想是使得各个训练点到最优拟合线的距离最小（平方和最小）。平方损失函数定义如下：

L (θ) = 1 N \sum i N (y i - f (x i; θ)) 2

$L(\theta)=\frac{1}{N} \sum_i^{N}(y_i - f(x_i;\theta))^2$

对数损失函数

对于逻辑回归

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_{\theta}(x) = g(\theta ^T x)= \frac{1}{1+e^{-\theta^T x}}$

逻辑回归，标签 $y = 0$ 或 $y=1$ ，那么代价函数

c o s t (h θ (x), y) = {log (h θ (x)) - log (1 - h θ (x)) i f y = 1 i f y = 0

$cost(h_{\theta}(x),y)= \left\{ \begin{array} -\log(h_{\theta}(x)) \quad &if \quad y = 1 \\ -\log(1-h_{\theta}(x)) \quad &if \quad y = 0 \end{array} \right.$

综合起来，可以得到

L (h θ (x), y) = 1 N \sum i = 1 N [y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))

$L(h_{\theta}(x),y)=\frac{1}{N} \sum_{i=1}^{N}[y^{(i)}\log h_{\theta}(x^{(i)}) + (1-y^{(i)})\log(1- h_{\theta}(x^{(i)}))$

这只是二分类的情况，如果是多分类，则用到Softmax，，假设有k类，对应每个类别的概率分别为：

h θ (x) = 1 \sum k j = 1 e - θ T i x ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ e - θ T 1 x e - θ T 2 x ⋮ e - θ T k x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{equation} h_\theta(x) = \frac{1}{\sum_{j=1}^{k} e^{-\theta_i^T x}} \left[ \begin{array}{c}e^{-\theta^T_1 x} \\ e^{-\theta^T_2 x} \\ \vdots \\ e^{-\theta^T_k x} \end{array} \right] \end{equation}$

那么损失函数为

L (h θ (x), y) = 1 N \sum i = 1 N [\sum j = 1 k 1 {y (j) = j} log (y (j) = j | x; θ)]

$L(h_{\theta}(x),y)=\frac{1}{N} \sum_{i=1}^{N}[\sum_{j=1}^{k}1\{y^{(j)}=j\}\log(y^{(j)}=j|x;\theta)]$

Hinge损失函数

SVM分类器中，常常使用hinge loss函数，用来最大化“分类间隔”。加上正确类别为 $y$ ，分类间隔最小为 $m$ ，那么

L o s s (y) = max (0, m + max t \neq y (W t X - W y X))

$Loss(y) = \max(0, m + \max_{t \neq y} (W_tX - W_yX) )$
其中

WyX $W_yX$ 为正确类别的得分，即正确类别的得分，最少要比错误类别大

m $m$ ，否则Loss就不为零。