不确定性建模似乎可以适用于标签噪声更大的数据，而DTP可能在干净的标注数据里效果更好

一、同方差的不确定性加权(噪声低的权重高，好学的任务权重高)

参考利用不确定性来衡量多任务学习中的损失函数 - 知乎

每个任务的最优权重依赖于衡量尺度并且最终依赖于任务噪声的大小。

通过考虑每个任务之间的同方差不确定性（homoscedastic uncertainty）来设置不同任务损失函数的权值(关于同方差不确定性的具体含义，我会展开进一步解释）

综上，本文的创新点主要有三：

提出一种新的多任务学习损失函数权重设置方法即利用同方差不确定性同时学习不同尺度和数量的回归和分类问题。
提出一个用于语义分割，实例分割和深度回归的统一框架。
说明了不同loss权值设置对最终多任务网络性能的影响，以及与单独训练的模型相比，如何获得更好的性能提升。

Multi Task Learning with Homoscedastic Uncertainty

多任务学习涉及根据多个目标优化模型的问题，本质上是loss的统一化，最原始的做法如下式所示，将不同任务的loss简单线性加权求和：

但是这种loss的计算方法有很多的弊端，如下图所示，不同任务对wi的设置非常敏感，不同wi的设置对性能表现差别很大，而且最后一行的结果也表明，本文的方法设计的权重对于多任务的训练能够比单个任务更胜一筹。

Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》

CVPR 2018, Cites：676

【主要思想】：

本文希望让“简单”的任务有更高的权重。

扫描二维码关注公众号，回复： 15312086 查看本文章

【背景】：

NIPS2017论文《What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?》中提到，当我们使用数据集，基于输入x和输出y训练模型的时候，面临两种不确定性（Uncertainties）：认知不确定性（epistemic）和偶然不确定性（aleatoric）。

认知不确定性（epistemic）：指的是由于缺少数据导致的认知偏差。当数据很少的时候，训练数据提供的样本分布很难代表数据全局的分布，导致模型训练学偏。这种不确定性可以通过增加数据来改善。
偶然不确定性（aleatoric）：指的是由于数据本身，或者任务本身带来的认知偏差。偶然不确定性有个特点，其不会随着数据量增加而改善结果，数据即使增加，偏差仍然存在。

（1）同方差不确定性 (模型输出结果的置信度)

在介绍相关知识前，我想先简单说一下"不确定性”应该如何理解，在很多情况下，深度学习领域都有极佳的表现，这种表现依赖于强大的算力和深厚的网络结构，会对问题给出一个特定的结果，比如无人驾驶中的语义分割，商用的语义分割网络是十分成熟的，但是还是出现过无人驾驶发生交通事故致人殒命，究其原因是分割中将车辆判别为背景。这说明，大多数情况下，深度学习会对问题给出一个答案，注意，是一个，不管这个答案在内部有多大的把握，也就是说模型不会给出对自己最终输出的结果有多大的置信度。也许你会想，这个答案是模型在众多候选中找到概率最大的（比如分类问题最后用softmax），但是在极端情况下，如分类A和B但是在测试阶段输入C类的图片，那么分类器大概率会带来无法预知的结果，而这种错误，在容错率极低的行业，如航天，军事等领域，是绝不能容忍的。试想一下，如果面多这种极端情况，在输出结果的同时给出一个极低的对结果的置信度，这个低置信度会带来预警，让人为进行干预，效果会好很多，这种置信度的输出，就要靠贝叶斯建模了。

其中，偶然不确定性可以细分为两类：

（1）数据依赖型或异方差不确定性（Data-dependent or Heteroscedastic uncertainty）：这种不确定性取决于输入的数据，并且预测结果作为模型的输出

（2）任务依赖型或同方差不确定性（Task-dependent or Homoscedastic uncertainty）：不依赖于输入数据，也不会是模型输出结果，而是对所有输入数据相同的常量，对不同任务不同的变量，基于这个特性，叫做任务依赖型不确定性

因为在多任务学习中，任务的不确定性表明了任务键的相对置信度，反映了回归和分类问题中固有的不确定性。因此本文提出把同方差不确定性作为噪声来对多任务学习中的权重进行优化。

（2). Multi-task likelihoods

本小节主要推导一个多任务损失函数，这个损失函数利用同方差不确定性来最大化高斯似然估计。首先定义一个概率模型：

这是对于回归问题的概率模型定义，fw(x)是神经网络的输出，x是输入数据，W是权重

对于分类问题，通常会将输出压入sigmoid中，如下式所示：

接下来，定义多任务的似然函数：

其中，yi是多任务中每个子任务的输出

那么，极大似然估计就可以表示下式，（5）式也表明，该极大似然估计与右边成正比，其中，σ是高斯分布的标准差，也是作为模型的噪声，接下来的任务就是根据W和σ最大化似然分布

以两个输出y1和y2为例：得到如（6）式高斯分布：

则此时的极大似然估计为（7）式：

可以看到，最后一步中用损失函数替换了y和f的距离计算，即：

同理可知L2

继续分析（7）式子可得，我们的任务是最小化这个极大似然估计，所以，当σ（噪声）增大时，相对应的权重就会降低；另一方面，随着噪声σ减小，相对应的权重就要增加

接下来，将分类问题也考虑上，分类问题一般加一层softmax，如（8）式所示：

那么softmax似然估计为：

接下来考虑这种情况：模型的两个输出，一个是连续型y1，另一个是独立型y2，分别用高斯分布和softmax分布建模，可得（10）式：

同理，

L2（W）替换为：

二、DTP Dynamic Task Prioritization((噪声高的权重低，困难的任务权重高)) 动态任务优先级

DTP希望让更难学的任务具有更高的权重。

直观来看，KPI高的任务，学习起来比较简单，则权重会变小；反之，难学的任务权重会变大。

【评价】：

优点：

需要获取不同step的KPI值，从而避免了为了获取不同任务的梯度，运算较快

缺点：

DTP没有考虑不同任务的loss的量级，需要额外的操作把各个任务的量级调整到差不多；且需要经常计算KPI......

# Dynamic Task Prioritization 动态任务优先级
def focal_loss_dtp(auc,k,alpha=0.95, gamma=2.0):
    k = alpha * auc + (1-alpha) * k
    return -tf.pow(1-k, gamma) * tf.log(k)

dtp_1 = focal_loss_dtp(auc_1[1], k_1)
dtp_2 = focal_loss_dtp(auc_2[1], k_2)
dtp_3 = focal_loss_dtp(auc_3[1], k_3)

loss = dtp_1 * loss_1 + dtp_2 * loss_2 + dtp_3 * loss_3