机器学习中的基本问题——log损失与交叉熵的等价性

1、log损失

log损失的基本形式为：

l o g (1 + e x p (- m))

$log\left ( 1+exp\left ( -m \right ) \right )$

其中， $m=y\cdot \hat{y}$ ， $y\in\left \{ -1,1 \right \}$ 。

对上述的公式改写：

$\Rightarrow \frac{1}{m} \sum_{i = 1}^{m} l o g (1 + e x p (- y^{(i)} \cdot \hat{y^{(i)}}))$ $\Rightarrow \frac{1}{m}\sum_{i=1}^{m}log\left ( 1+exp\left ( -y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right ) \right )$
已知：
$σ (x) = \frac{1}{1 + e x p (- x)}$ $\sigma \left ( x \right )=\frac{1}{1+exp\left ( -x \right )}$
$σ (x) = 1 - σ (- x)$ $\sigma \left ( x \right )=1-\sigma \left ( -x \right )$
$\Rightarrow \frac{1}{m} \sum_{i = 1}^{m} l o g (σ {(y^{(i)} \cdot \hat{y^{(i)}})}^{- 1}) = - \frac{1}{m} \sum_{i = 1}^{m} l o g σ (y^{(i)} \cdot \hat{y^{(i)}})$ $\Rightarrow \frac{1}{m}\sum_{i=1}^{m}log\left ( \sigma \left ( y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right )^{-1}\right )=-\frac{1}{m}\sum_{i=1}^{m}log \sigma \left ( y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right )$

2、交叉熵

交叉熵的一般形式为：

H (y, \hat{y}) = - \sum y \cdot l o g σ (\hat{y})

$H\left ( y,\hat{y} \right )=-\sum y\cdot log\sigma \left ( \hat{y} \right )$

对于 $m$ 个样本，则交叉熵为：

H (y, \hat{y}) = - \frac{1}{m} \sum_{i = 1}^{m} [I {y^{(i)} = 1} \cdot l o g σ (\hat{y}) + I {y^{(i)} = - 1} \cdot l o g (1 - σ (\hat{y}))]

$H\left ( y,\hat{y} \right )=-\frac{1}{m}\sum_{i=1}^{m} \left [ I\left \{ y^{\left ( i \right )}=1 \right \}\cdot log\sigma \left ( \hat{y} \right )+ I\left \{ y^{\left ( i \right )}=-1 \right \}\cdot log\left ( 1-\sigma \left ( \hat{y} \right ) \right )\right ]$

$H (y, \hat{y}) = - \frac{1}{m} \sum_{i = 1}^{m} [I {y^{(i)} = 1} \cdot l o g σ (\hat{y}) + I {y^{(i)} = - 1} \cdot l o g σ (- \hat{y})]$ $H\left ( y,\hat{y} \right )=-\frac{1}{m}\sum_{i=1}^{m} \left [ I\left \{ y^{\left ( i \right )}=1 \right \}\cdot log\sigma \left ( \hat{y} \right )+ I\left \{ y^{\left ( i \right )}=-1 \right \}\cdot log\sigma \left ( -\hat{y} \right ) \right ]$
由于 $y^{\left ( i \right )}\in\left \{ -1,1 \right \}$ ，且必定为其一。
$\Rightarrow I {y^{(i)} = k} = {\begin{cases} 0 & if y^{(i)} \neq k \\ 1 & if y^{(i)} = k \end{cases}$ $\Rightarrow I\left \{ y^{\left ( i \right )}=k \right \}=\begin{cases} 0 & \text{ if } y^{\left ( i \right )}\neq k \\ 1 & \text{ if } y^{\left ( i \right )}= k \end{cases}$
$H (y, \hat{y}) = - \frac{1}{m} \sum_{i = 1}^{m} l o g σ (y^{(i)} \cdot \hat{y^{(i)}})$ $H\left ( y,\hat{y} \right )=-\frac{1}{m}\sum_{i=1}^{m} log\sigma \left ( y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right )$

我的博客即将搬运同步至腾讯云+社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan

机器学习中的基本问题——log损失与交叉熵的等价性

1、log损失

2、交叉熵

猜你喜欢