简单理解Focal Loss

Focal Loss用来解决的是类别不均衡问题，其 $\alpha$ 变体的公式长下面这样： $\mathrm{FL}\left(\mathrm{p}_{\mathrm{t}}\right)=-\alpha_{\mathrm{t}}\left(1-\mathrm{p}_{\mathrm{t}}\right)^\gamma \log \left(\mathrm{p}_{\mathrm{t}}\right)$

一点一点来看。考虑基本的二分类问题，交叉熵如下： $\mathrm{CE}(\mathrm{p}, \mathrm{y})= \begin{cases}-\log (\mathrm{p}) & \text { if } \mathrm{y}=1 \\ -\log (1-\mathrm{p}) & \text { if } \mathrm{y}=0\end{cases}$ 其中 $p$ 为网络预测的结果。为了公式统一起见，记： $\mathrm{p_t}= \begin{cases}\mathrm{p} & \text { if } \mathrm{y}=1 \\ 1-\mathrm{p} & \text { if } \mathrm{y}=0\end{cases}$ 可以发现这一步把标签 $\mathrm{y}$ 和 $\mathrm{p}$ 的分类讨论情况都给统一了，现在交叉熵就可以直接写为： $\mathrm{CE}(\mathrm{p}, \mathrm{y})=\mathrm{CE}\left(\mathrm{p}_{\mathrm{t}}\right)=-\log \left(\mathrm{p}_{\mathrm{t}}\right)$ 其中 $t$ 表类别，比如正类 $1$ 或者负类 $0$ 。

通过上面这一部分的分析，我们可以把Focal Loss给改写为： $\mathrm{FL}\left(\mathrm{p}_{\mathrm{t}}\right)=\alpha_{\mathrm{t}}\left(1-\mathrm{p}_{\mathrm{t}}\right)^\gamma \mathrm{CE}\left(\mathrm{p}_{\mathrm{t}}\right)$ 也就是一种改进的交叉熵，乘了两个系数， $\alpha_{\mathrm{t}}$ 和 $\left(1-\mathrm{p}_{\mathrm{t}}\right)^\gamma$ 。

首先来看 $\alpha_{\mathrm{t}}$ 。这一超参的动机非常直观，就是人工控制不同类别 $t$ 的权重。假设负类样本数量远多于正类，为了防止网络仅关注于负类的分类效果，我们就可以把负类的权重 $\alpha_0$ 给调小一些，正类的权重 $\alpha_1$ 给调大一些。这么做就初步解决了不均衡。

但是这里存在一个问题，手工设置的超参数可能不准确也不够灵活。有没有办法让网络自适应的学这个权重呢？我们进一步引入一个权重因子： $\left(1-\mathrm{p}_{\mathrm{t}}\right)^\gamma$ 可以发现，这个权重系数是与网络当前的状态 $\mathrm{p}_{\mathrm{t}}$ 有关的。写出其表达式： $\mathrm{p_t}= \begin{cases}1 - \mathrm{p} & \text { if } \mathrm{y}=1 \\ \mathrm{p} & \text { if } \mathrm{y}=0\end{cases}$ 注意到 $\mathrm{p_t}$ 蕴含着网络预测结果的错误率信息。该值越低，表明网络对该类的这个样本预测的更准确。基于"错题"是对于学习更有帮助的，可以得到Focal Loss的核心逻辑：

如果在训练阶段对某一类的样本总是比较准确，即 $\left(1-\mathrm{p}_{\mathrm{t}}\right)^\gamma$ 更低，那么我们就将其作为系数对损失函数进行加权，使得网络不那么关注这一类的"容易样本"。反之，对于少见的困难类样本，其 $\left(1-\mathrm{p}_{\mathrm{t}}\right)^\gamma$ 更高，网络对其给予更大的权重进行学习。

猜你喜欢