【NeurIPS 2020】Deep Evidential Regression

Deep Evidential Regression

Alexander Amini (MIT), Wilko Schwarting(MIT), Ava Soleimany(Harvard) and Daniela Rus(MIT)

34th Conference on Neural Information Processing Systems (NeurIPS 2020), V ancouver, Canada.

Paper原文:https://arxiv.org/abs/1910.02600
Tensorflow代码(作者):https://github.com/aamini/evidential-deep-learning
Pytorch代码:https://github.com/deebuls/deep_evidential_regression_loss_pytorch


Abstract

Deterministic Neural Networks(NNs) 正越来越多地应用于关键的安全领域,在这些领域,校准、鲁棒和有效的不确定性措施至关重要。在本文中,我们提出了一种训练非贝叶斯神经网络来估计连续目标及其相关证据的新方法,以学习任意不确定性和认知不确定性。我们通过在原始高斯似然函数上放置证据先验和训练神经网络来推断证据分布的超参数来实现这一点。此外,我们在训练过程中施加先验,使得当模型的预测证据与正确的输出不一致时,模型被正则化。我们的方法不依赖于推理过程中的采样或训练的out-of-distribution(OOD)例子,因此能够实现高效和可扩展的不确定性学习。我们展示了在各种基准上学习校准良好的不确定性度量,扩展到复杂的计算机视觉任务,以及对抗的和OOD测试样本的鲁棒性。


1 Introduction

  • 基于回归的神经网络Regression-based neural networks目前应用于计算机视觉[15]以及机器人和控制[1,6]的安全关键领域,其中的推断其模型不确定性的能力对于最终的大规模应用至关重要。此外,精确和校准的不确定性评估有助于解释置信度,捕捉分布外(OOD)测试样本的域偏移,并识别模型何时可能失败。
  • 神经网络(NN)的不确定性有两个轴可以建模:(1)数据中的不确定性,称为随机不确定性; (2)预测中的不确定性,称为认知不确定性。虽然随机不确定性的表示可以直接从数据中学习,但存在几种估计认知不确定性的方法,如贝叶斯神经网络,它将概率先验置于网络权重之上,并使用采样来近似输出方差[25]。然而,贝叶斯神经网络有一些缺陷,包括难以直接推断给定数据权重的后验分布,推理过程中采样的要求和计算开销,以及如何选择权重先验的问题
  • 相比之下,证据深度学习将学习表述为证据获取过程[42,32]。每一个训练的例子都增加了对学习的高阶证据分布的支持。从这个分布抽样产生低阶似然函数的实例,从中得出数据。不是像贝叶斯神经网络那样把先验放在网络权值上证据方法而是把先验直接放在似然函数。通过训练一个神经网络来输出高阶证据分布的超参数,就可以在不需要采样的情况下学习认知和任意不确定性的基础表示。
  • 到目前为止,证据深度学习的目标是离散分类问题[42,32,22],并且要求对最大不确定先验的明确距离度量[42],或者依靠OOD数据的训练来扩大模型的不确定性[32,31]。相比之下,连续回归问题表现出缺乏明确的距离度量来规范推断的证据分布的复杂性。此外,在大多数应用中,预先定义一个合理的OOD数据集并不容易;因此,仅从分布内训练集中获得OOD数据的校准不确定度的方法是必需的。
  • 我们提出了一种新的方法,通过学习证据分布来模拟回归网络的不确定性(图1)。具体而言,这项工作做出了以下贡献:
    1. 一种新的、可扩展的方法,用于学习回归问题中的认知和随机不确定性,在推断或训练过程中无需采样,使用OOD数据;
    1. 为连续回归问题制定证据正则化,这对于惩罚关于错误和OOD例子的错误证据是必要的;
    1. 评估基准和复杂视觉回归任务的认知不确定性,并与最先进的神经网络不确定性估计技术进行比较;
    1. 对OOD和对抗扰动测试输入数据的鲁棒性和校准评估。
      在这里插入图片描述

图1:证据回归同时学习一个连续的目标以及任意的(数据)和认知的(模型)不确定性。给定一个输入,网络被训练来预测证据分布的参数,该证据分布对个体似然参数(,σ2)的高阶概率分布建模。


2 Modelling uncertainties from data数据中的建模不确定性

2.1Preliminaries正文前书页

  • 考虑下面的监督优化问题:给定一个数据集 D D D N N N对训练例子, D = { x i , y i } i = 1 N \mathcal{D}=\left\{\boldsymbol{x}_{i}, y_{i}\right\}_{i=1}^{N} D={ xi,yi}i=1N我们的目标是学习由一组权重 w w w参数化的函数映射 f f f,它近似地解决了以下优化问题:
  • min ⁡ w J ( w ) ; J ( w ) = 1 N ∑ i = 1 N L i ( w ) \min _{\boldsymbol{w}} J(\boldsymbol{w}) ; \quad J(\boldsymbol{w})=\frac{1}{N} \sum_{i=1}^{N} \mathcal{L}_{i}(\boldsymbol{w}) minwJ(w);J(w)=N1i=1NLi(w) -------------------------(1)
  • 其中 L i ( ⋅ ) \mathcal{L}_{i}(·) Li()描述了损失函数。在这项工作中,我们考虑确定性回归问题,它通常优化误差平方和, L i ( w ) = 1 2 ∥ y i − f ( x i ; w ) ∥ 2 \mathcal{L}_{i}(\boldsymbol{w})=\frac{1}{2}\left\|y_{i}-f\left(\boldsymbol{x}_{i} ; \boldsymbol{w}\right)\right\|^{2} Li(w)=21yif(xi;w)2。在这样做时,模型被鼓励学习给定输入的平均正确答案,但是在进行估计时,不明确地对数据中的任何潜在噪声或不确定性建模。

2.1Maximum likelihood estimation最大似然估计

  • 我们可以从最大似然的角度来处理这个问题,我们学习模型参数,最大化观察特定训练数据集的可能性。在确定性回归的背景下,我们假设我们的目标 y i {y}_{i} yi是从一个分布(如具有均值和方差参数 θ = ( μ , σ 2 ) \boldsymbol{\theta}=\left(\mu, \sigma^{2}\right) θ=(μ,σ2)的高斯分布)中提取的。在最大似然估计(MLE)中,我们旨在学习一个模型来推断 θ \boldsymbol{\theta} θ,该模型最大化观察我们的目标 y y y的可能性,由 p ( y i ∣ θ ) p\left(y_{i} \mid \boldsymbol{\theta}\right) p(yiθ)给出。这是通过最小化负对数似然损失函数来实现的:
  • L i ( w ) = − log ⁡ p ( y i ∣ μ , σ 2 ⏟ θ ) = 1 2 log ⁡ ( 2 π σ 2 ) + ( y i − μ ) 2 2 σ 2 \mathcal{L}_{i}(\boldsymbol{w})=-\log p(y_{i} \mid \underbrace{\mu, \sigma^{2}}_{\theta})=\frac{1}{2} \log \left(2 \pi \sigma^{2}\right)+\frac{\left(y_{i}-\mu\right)^{2}}{2 \sigma^{2}} Li(w)=logp(yiθ μ,σ2)=21log(2πσ2)+2σ2(yiμ)2------------------------------(2)
  • 在学习 θ \boldsymbol{\theta} θ时,该似然函数成功地对数据中的不确定性建模,也称为随机不确定性。然而,我们的模型忽略了它的预测认知不确定性[25]。
  • 在本文中,我们提出了一种新的方法,通过直接学习数据中存在的随机不确定性以及模型潜在的认知不确定性来估计支持回归网络预测的证据。我们通过将高阶先验分布放在控制分布的学习参数上来实现这一点,我们的观察就是从该分布中得出的。
    Figure2Normal Inverse-Gamma distribution.
    图2:正态逆伽马分布。我们的证据分布(A)的不同实现对应于参数中的不同置信度水平(e.g. µ , σ 2 µ, σ^2 µ,σ2)。从高阶证据分布(B)的单个实现中采样,产生数据的低阶可能性(C ) (e.g. p ( y i ∣ µ , σ 2 ) p\left(y_{i} \mid {µ, σ^2}\right) p(yiµ,σ2))。较暗的阴影表示较高的概率质量。我们的目标是学习一个模型,该模型根据输入 x x x预测目标 y y y,并对我们的可能性施加证据先验,以实现不确定性估计。

3 Evidential uncertainty for regression回归的证据不确定性

3.1Problem setup问题设置

  • 我们考虑这样一个问题,其中观察到的目标 y i {y}_{i} yi是从高斯分布中提取的,如标准的MLE(Sec. 2.2),但是现在具有未知的均值和方差 ( μ , σ 2 ) \left(\mu, \sigma^{2}\right) (μ,σ2),我们也寻求概率估计。我们通过将先验分布置于 ( μ , σ 2 ) \left(\mu, \sigma^{2}\right) (μ,σ2)上来对此进行建模。如果我们假设观测值是从高斯分布中得出的,与假设Sec. 2.2一致,这导致在未知均值上放置高斯先验,在未知方差上放置逆伽马先验:
  • ( y 1 , … , y N ) ∼ N ( μ , σ 2 ) \left(y_{1}, \ldots, y_{N}\right) \sim \mathcal{N}\left(\mu, \sigma^{2}\right) (y1,,yN)N(μ,σ2)
    μ ∼ N ( γ , σ 2 v − 1 ) σ 2 ∼ Γ − 1 ( α , β ) \mu \sim \mathcal{N}\left(\gamma, \sigma^{2} v^{-1}\right) \quad \sigma^{2} \sim \Gamma^{-1}(\alpha, \beta) μN(γ,σ2v1)σ2Γ1(α,β). ------------------------(3)
    其中 Γ ( ⋅ ) \Gamma(·) Γ()是伽马函数, m = ( γ , v , α , β ) m=(\gamma,v,\alpha,\beta) m=(γ,v,α,β),并且 γ ∈ R \gamma\in\mathbb{R} γR, v > 0 , α > 1 , β > 0. v>0,\alpha>1,\beta>0. v>0,α>1,β>0.
  • 我们的目的是估计后验分布 q ( μ , σ 2 ) = p ( μ , σ 2 ∣ y 1 , … , y N ) q\left(\mu, \sigma^{2}\right)=p\left(\mu, \sigma^{2} \mid y_{1}, \ldots, y_{N}\right) q(μ,σ2)=p(μ,σ2y1,,yN).为了获得真实后验分布的近似值,我们假设估计分布可以被因式分解[39],使得 q ( μ , σ 2 ) = q ( μ ) q ( σ 2 ) q\left(\mu, \sigma^{2}\right)=q(\mu) q\left(\sigma^{2}\right) q(μ,σ2)=q(μ)q(σ2).因此,我们的近似是采用的高斯共轭先验的形式,即正态逆伽马(NIG)分布:
    p ( μ , σ 2 ⏟ θ ∣ γ , v , α , β ⏟ m ) = β α v Γ ( α ) 2 π σ 2 ( 1 σ 2 ) α + 1 exp ⁡ { − 2 β + v ( γ − μ ) 2 2 σ 2 } p(\underbrace{\mu, \sigma^{2}}_{\theta} \mid \underbrace{\gamma, v, \alpha, \beta}_{m})=\frac{\beta^{\alpha} \sqrt{v}}{\Gamma(\alpha) \sqrt{2 \pi \sigma^{2}}}\left(\frac{1}{\sigma^{2}}\right)^{\alpha+1} \exp \left\{-\frac{2 \beta+v(\gamma-\mu)^{2}}{2 \sigma^{2}}\right\} p(θ μ,σ2m γ,v,α,β)=Γ(α)2πσ2 βαv (σ21)α+1exp{ 2σ22β+v(γμ)2}-----------------------------(4)
  • 对这种共轭先验分布参数的一种主流解释是支持给定性质的“虚拟观察”[23]。例如,NIG分布的均值可以直观地解释为由样本均值为 γ \gamma γ v v v虚拟观测值估计,而其方差由样本均值为γ的α虚拟观测值和方差之和2υ估计。
  • 从NIG分布中抽取样本 θ j \boldsymbol{\theta}_{j} θj,得到我们似然函数的一个实例,即 N ( μ j , σ j 2 ) \mathcal{N}\left(\mu_{j}, \sigma_{j}^{2}\right) N(μj,σj2)。因此,NIG超参数 ( γ , v , α , β ) (\gamma,v,\alpha,\beta) (γ,v,α,β)不仅要确定位置,还要确定与我们推断的似然函数相关的分散浓度或不确定性。因此,我们可以将NIG分布解释为在未知的低阶似然分布之上的高阶证据分布,从该低阶似然分布中可以得出观测值。
  • 例如,在图2A中,我们用不同的模型参数可视化不同的证据NIG分布。说明通过增加这个分布的证据参数(i.e. v , α v,\alpha v,α)p.d.f .变得高度集中于其推断的似然函数。考虑这种高阶分布的单个参数实现(图2B),我们随后可以对我们的似然函数的许多低阶实现进行采样,如图2C所示。
  • 在这项工作中,我们使用神经网络来推断,给定一个输入,这个高阶,证据分布的超参数m。与以前的工作相比,这种方法有几个明显的优点首先,我们的方法能够同时学习期望的回归任务,以及随机和认知不确定性估计,通过强制证据先验,并且在训练期间不利用任何分布外的数据。其次,由于证据先验是一个高阶NIG分布,最大似然高斯可以从(σ2)参数的期望值解析计算,而不需要采样。第三,我们可以通过简单地评估我们推断的证据分布的方差来有效地估计与网络预测相关的认知或模型不确定性。

3.2Prediction and uncertainty estimation预测和不确定性估计

  • 随机不确定性,也称为统计或数据不确定性,是每次我们进行相同实验时不同的未知的代表。认知(或模型)不确定性描述了预测中的估计不确定性。给定一个NIG分布,我们可以计算出预测、任意性和认知不确定性。
    E [ μ ] = γ ⏟ prediction  , E [ σ 2 ] = β α − 1 ⏟ aleatoric  , Var ⁡ [ μ ] = β v ( α − 1 ) ⏟ epistemic  . \underbrace{\mathbb{E}[\mu]=\gamma}_{\text {prediction }}, \quad \underbrace{\mathbb{E}\left[\sigma^{2}\right]=\frac{\beta}{\alpha-1}}_{\text {aleatoric }}, \quad \underbrace{\operatorname{Var}[\mu]=\frac{\beta}{v(\alpha-1)}}_{\text {epistemic }} . prediction  E[μ]=γ,aleatoric  E[σ2]=α1β,epistemic  Var[μ]=v(α1)β.---------------------(5)
  • 这些力矩的完整推导见Sec. S1.1.请注意, Var ⁡ [ μ ] = E [ σ 2 ] / v \operatorname{Var}[\mu]=\mathbb{E}\left[\sigma^{2}\right] / v Var[μ]=E[σ2]/v,这是我们的两个证据虚拟观察计数之一。

3.3Learning the evidential distribution学习证据分布

  • 在将证据分布的使用形式化以捕捉任意性和认知不确定性之后,我们接下来描述我们学习模型以输出该分布的超参数的方法。为了清晰起见,我们将学习过程构建为一个多任务学习问题,有两个不同的部分:(1)获取或最大化支持我们观察的模型证据,以及(2)当预测错误时,最小化证据或夸大不确定性。在高层次上,我们可以考虑(1)将我们的数据拟合到证据模型的方法,而(2)实施先验以移除不正确的证据并扩大不确定性。
  • (1)Maximizing the model fit.最大化模型拟合 根据贝叶斯概率理论,“模型证据”或边际似然性被定义为观察的似然性, y i {y}_{i} yi,给定证据分布参数m,并通过边际化似然性参数θ来计算:
    p ( y i ∣ m ) = p ( y i ∣ θ , m ) p ( θ ∣ m ) p ( θ ∣ y i , m ) = ∫ σ 2 = 0 ∞ ∫ μ = − ∞ ∞ p ( y i ∣ μ , σ 2 ) p ( μ , σ 2 ∣ m ) d μ d σ 2 p\left(y_{i} \mid \boldsymbol{m}\right)=\frac{p\left(y_{i} \mid \boldsymbol{\theta}, \boldsymbol{m}\right) p(\boldsymbol{\theta} \mid \boldsymbol{m})}{p\left(\boldsymbol{\theta} \mid y_{i}, \boldsymbol{m}\right)}=\int_{\sigma^{2}=0}^{\infty} \int_{\mu=-\infty}^{\infty} p\left(y_{i} \mid \mu, \sigma^{2}\right) p\left(\mu, \sigma^{2} \mid \boldsymbol{m}\right) \mathrm{d} \mu \mathrm{d} \sigma^{2} p(yim)=p(θyi,m)p(yiθ,m)p(θm)=σ2=0μ=p(yiμ,σ2)p(μ,σ2m)dμdσ2----------------(6)
  • 一般来说,评估模型证据并不简单,因为计算它涉及到整合对潜在模型参数的依赖。然而,在我们的高斯似然函数上放置NIG证据先验的情况下,分析解确实存在:
    p ( y i ∣ m ) = St ⁡ ( y i ; γ , β ( 1 + v ) v α , 2 α ) p\left(y_{i} \mid \boldsymbol{m}\right)=\operatorname{St}\left(y_{i} ; \gamma, \frac{\beta(1+v)}{v \alpha}, 2 \alpha\right) p(yim)=St(yi;γ,vαβ(1+v),2α)-----------------(7)
    式中, St ⁡ ( y ; μ S t , σ S t 2 , v S t ) \operatorname{St}\left (y; \mu_{ {S}_{t}},\sigma^{2}_{ {S}_{t}},v_{ {S}_{t}}\right) St(y;μSt,σSt2,vSt)为位置为Student-t的y点的学生-t分布,标度σ2和υSt自由度。我们用模型证据的负对数来表示损失 L i N L L ( w ) L^{NLL}_{i}(w) LiNLL(w):
    L i N L L ( w ) = 1 2 log ⁡ ( π v ) − α log ⁡ ( Ω ) + ( α + 1 2 ) log ⁡ ( ( y i − γ ) 2 v + Ω ) + log ⁡ ( Γ ( α ) Γ ( α + 1 2 ) ) \mathcal{L}_{i}^{\mathrm{NLL}}(\boldsymbol{w})=\frac{1}{2} \log \left(\frac{\pi}{v}\right)-\alpha \log (\Omega)+\left(\alpha+\frac{1}{2}\right) \log \left(\left(y_{i}-\gamma\right)^{2} v+\Omega\right)+\log \left(\frac{\Gamma(\alpha)}{\Gamma\left(\alpha+\frac{1}{2}\right)}\right) LiNLL(w)=21log(vπ)αlog(Ω)+(α+21)log((yiγ)2v+Ω)+log(Γ(α+21)Γ(α))----------------------(8)
    上式 Ω = 2 β ( 1 + v ) \Omega=2\beta(1+v) Ω=2β(1+v),公式7和公式8的完整推导在附录1.2.这种损失为训练神经网络输出NIG分布的参数提供了目标,以通过最大化模型证据来拟合观测值。
  • (2)Minimizing evidence on errors.尽量减少错误的证据 接下来,我们描述了如何通过应用不正确的证据惩罚(即之前的高度不确定性)来规范训练,以尽量减少不正确预测的证据。这已经在分类设置中成功地证明了,在该分类设置中,不具有误导性的证据被从后部移除,不确定的先验设置为统一的Dirichlet[42]。回归设置中的类似最小化包含 K L [ p ( θ ∣ m ) ∥ p ( θ ∣ m ~ ) ] K L[p(\boldsymbol{\theta} \mid \boldsymbol{m}) \| p(\boldsymbol{\theta} \mid \tilde{\boldsymbol{m}})] KL[p(θm)p(θm~)],其中 m ~ \tilde{\boldsymbol{m}} m~是无证据的不确定NIG先验的参数。不幸的是,任何NIG和零证据NIG先验之间的KL是未定义的。此外,这种损失不应该在任何地方强制执行,而应该具体到后验是“误导”的地方。过去的分类工作[42]是通过使用基本事实似然分类法(一个热门的编码标签)来去除“非误导性”证据来实现这一点的。然而,在回归中,除了我们的单个标记点估计之外,不可能处处惩罚证据,因为这个空间是无限的和无界的。因此,这些以前的证据学习的方法是不适用的。
  • 为了解决回归环境中的这些挑战,我们提出了一个新的证据正则化器, L i R L^{R}_{i} LiR,根据第 i i i-th次预测的误差进行缩放,
    L i R ( w ) = ∣ y i − E [ μ i ] ∣ ⋅ Φ = ∣ y i − γ ∣ ⋅ ( 2 v + α ) \mathcal{L}_{i}^{\mathrm{R}}(\boldsymbol{w})=\left|y_{i}-\mathbb{E}\left[\mu_{i}\right]\right| \cdot \Phi=\left|y_{i}-\gamma\right| \cdot(2 v+\alpha) LiR(w)=yiE[μi]Φ=yiγ(2v+α)------------------(9)
  • 每当预测有错误时,这种损失就会带来惩罚,并与我们推断的后验的总证据成比例。相反,只要预测接近目标,大量预测的证据就不会受到惩罚。直接惩罚证据的一个天真的替代方法是在有证据之前软化零证据?-证据表明KL是有限的和确定的。然而,这样做会导致对选择?,因为它应该很小但是 K L → ∞ K L \rightarrow \infty KL as ϵ → 0 \epsilon \rightarrow 0 ϵ0.我们通过消融分析证明了证据正则化的附加值。(4.1),软KL正则化器的局限性(Sec.S2.1.3),以及学习解开历史和认知不确定性的能力。(Sec. S2.1.4)。
  • Summary and implementation details.总结和实施细节 总损失 L i w L_{i}{w} Liw由用于最大化和正则化证据的两个损失项组成,由正则化系数λ缩放,
    L i ( w ) = L i N L L ( w ) + λ L i R ( w ) \mathcal{L}_{i}(\boldsymbol{w})=\mathcal{L}_{i}^{\mathrm{NLL}}(\boldsymbol{w})+\lambda \mathcal{L}_{i}^{\mathrm{R}}(\boldsymbol{w}) Li(w)=LiNLL(w)+λLiR(w)-------(10)
    这里,λ用模型拟合来权衡不确定性膨胀。设置λ = 0会产生过于自信的估计,而设置λ过高会导致过度膨胀(2)。实际上,我们的神经网络被训练来输出证据分布的参数 m i = f ( x i ; w ) m_{i}=f(x_{i};w) mi=f(xi;w)。因为m由4个参数组成,所以f对于每个目标y有4个输出神经元。我们用软加激活(and additional +1 added to α since α > 1)对 ( v , α , β ) (v,\alpha,\beta) (v,α,β)实施约束。线性激活用于 γ ∈ R \gamma \in \mathbb{R} γR

4 Experiments实验

4.1Predictive accuracy and uncertainty benchmarking预测准确性和不确定性基准

  • 我们首先将我们的方法的性能与一维三次回归数据集上的一组基线进行定性比较(图3)。按照[20,28],我们训练模型 y = x 3 + ϵ y=x^3+ϵ y=x3+ϵ,其中 ϵ ∼ N ( 0 , 3 ) \epsilon \sim \mathcal{N}(0,3) ϵN(0,3) ± 4 \pm 4 ±4内,测试在 ± 6 \pm6 ±6内。我们比较了基线方法(左)、没有正则化的证据(中)和正则化的证据(右)的随机(A)和认知(B)不确定性估计。高斯极大似然法[36]和集合法[28]分别用作基线方法。正如所料,所有随机方法(A)都准确地捕捉到了训练分布中的不确定性。认知不确定性(B)捕捉OOD数据的不确定性;我们提出的证据方法恰当地估计了不确定性,并基于OOD的数据,而不依赖于抽样。本示例的训练详细信息和附加实验可在Sec. S2.1中找到.
    在这里插入图片描述
    图3:Toy uncertainty estimation.数据集上的任意(甲)和认知(乙)不确定性估计 y = x 3 + ϵ , ϵ ∼ N ( 0 , 3 ) y=x^3+\epsilon,\epsilon \sim \mathcal{N}(0,3) y=x3+ϵ,ϵN(0,3).正则化证据回归(右)能够在没有训练数据的区域内实现训练方案内的精确预测和保守的认知不确定性估计。还举例说明了基线结果。
  • 此外,我们将我们的方法与在[20,28,9]中使用的真实世界数据集的神经网络预测不确定性估计的基线方法进行比较。基于均方根误差(RMSE)、负对数似然(NLL)和推理速度,我们针对模型集成[28]和缺失[9]的结果评估了我们提出的证据回归方法。表1表明,尽管与竞争方法不同,证据回归的损失函数没有明确优化精度,但它相对于RMSE仍然具有竞争力,同时在所有数据集上表现最佳。为了给这两种基线方法最大的优势,我们将它们的抽样推理并行化(n = 5)。Dropout需要使用采样掩码进行额外的乘法运算,导致与集成相比推理速度稍慢,而证据只需要一次正向传递和网络。表1的训练细节详情在Sec. S2.2.可见。
    在这里插入图片描述
    表1:Benchmark regression tests.基准回归测试。RMSE, negative log-likelihood (NLL)负对数似然性, 以及缺失抽样[9]、模型集成[28]和证据回归的推断速度。每个指标和数据集的最高分以粗体显示(在统计显著性范围内),抽样基线的n = 5。证据模型在所有数据集上的自然语言学习和推理速度都优于基线方法。

4.2 Monocular depth estimation单目深度估计

  • 在建立基准比较结果之后,在这一小节中,我们通过将其扩展到复杂的高维深度估计任务来展示我们的证据学习方法的可扩展性。单目端到端深度估计是计算机视觉中的一个核心问题,涉及直接从场景的RGB图像中学习深度的表示。这是一项具有挑战性的学习任务,因为目标 y y y是非常高维的,每个像素都有预测。
  • 我们的训练数据由超过27k的RGB-to-depth、H × W、图像对的室内场景(如厨房、卧室等)组成。)来自NYU深度v2数据集[35]。我们训练了一个U-Net风格的神经网络[41],用于在场景(3)的不相交测试集上进行推理和测试。最后一层输出一个单一的H × W激活图,这是在普通回归、丢失和集合的情况下。空间丢失不确定性采样[2,45]用于丢失实现。证据回归输出这些输出图中的四个,对应于 ( γ , v , α , β ) (\gamma,v,\alpha,\beta) (γ,v,α,β),详情Sec.3.3.可见。
  • 我们根据模型的准确性和对未知测试数据的预测认知不确定性来评估模型。图4A可视化了两个随机选取的测试图像的预测深度、地面真实的绝对误差和预测熵。理想情况下,强认知不确定性度量将捕捉预测中的错误(即,大致对应于模型出错的地方)。与缺失和集合相比,证据建模可以捕捉深度误差,同时提供清晰的局部置信度预测。一般来说,Dropout大大低估了目前的不确定性,而集合偶尔高估了不确定性。图4B显示了当不确定性大于特定阈值的像素被移除时,每个模型的表现。证据模型表现出很强的性能,因为误差随着置信度的增加而稳步下降。
  • 图4C另外评估了我们的不确定性估计的校准。校准曲线根据[27]计算,理想情况下遵循 y = x y=x y=x表示,例如,目标在大约90%的时间内落入90%的置信区间。集成表现出更好的校准误差(0.048),但仍然优于所提出的证据方法(0.033)。结果显示了多项试验的评估,其中个别试验可在Sec.S3.3获得。
  • 除了认知不确定性实验,我们还评估了随机不确定性估计,并与高斯最大似然学习进行了比较。由于证据模型将数据拟合到更高阶的高斯分布,预计它们可以准确地学习任意不确定性(也如[42,18]所示)。因此,我们在Sec.S3.4中给出这些任意的结果,并将结果的剩余部分集中在评估认知不确定性估计的困难任务上,该任务是在分布外(OOD)和敌对扰动样本的背景下进行的。
    在这里插入图片描述
    图4:Epistemic uncertainty in depth estimation. 深度估计中的认知不确定性。(A)每个模型的像素级深度预测和不确定性示例。(B)预测置信水平与观测误差的关系;强烈的反向趋势是所期望的。©模型不确定度校准[27];(ideal:y = x)。插图显示校准误差。
    在这里插入图片描述
    图5:Uncertainty on out-of-distribution (OOD) data.分布外数据的不确定性。证据模型估计分布内数据的低不确定性(熵),并夸大OOD数据的不确定性。(A)被测方法的内径和面向对象设计熵的累积密度函数。通过AUC-ROC评估食品检测。(B)不同方法的不确定性(熵)比较。©通过对身份识别和身份识别数据的证据回归估计的熵的全密度直方图,以及样本图像。(D)。训练中没有看到所有数据。

4.3Out-of distribution testing OOD测试

  • 不确定性估计的一个关键用途是理解模型何时面临脱离分布的测试样本,或者何时模型的输出不可信。在这一小节中,我们通过对阿波罗景观[21]的图像进行测试,研究了证据模型捕捉增加的认知不确定性的能力。我们的证据方法,像贝叶斯神经网络一样,没有这种限制,只在训练期间的分布(ID)数据中看到。
  • 对于每一种方法,我们都输入标识和面向对象测试集,并记录每个测试图像的平均预测熵。图5A示展示出了每个方法和测试集的熵的累积密度函数(CDF)。在面向对象数据的证据模型中,熵CDF可以看到明显的正变化,并且在各种方法之间具有竞争力。图5B将这些熵分布总结为四分位数间的箱线图,以再次显示OOD数据的不确定性分布中的清晰分离。我们关注图5C中我们的证据模型的分布,并在图5D中提供样本预测(内径和外径)。这些结果表明,没有对面向对象数据进行训练的证据模型,捕捉到的面向对象数据的不确定性增加,与认知不确定性估计基线相当。

4.3.1Robustness to adversarial samples对抗样本的鲁棒性

  • 接下来,我们考虑OOD检测的极端情况,在这种情况下,输入受到不利干扰,从而对预测造成误差。我们使用快速梯度符号法(FGSM) [16]计算测试集的对抗性扰动,随着噪声的尺度、 ϵ \epsilon ϵ的增加。请注意,本实验的目的不是为最先进的对抗式攻击提出辩护,而是证明证据模型能够准确捕捉对抗式干扰样本中增加的预测不确定性。图6A证实了所有方法的绝对误差随着对抗噪声的增加而增加。在图6B中,我们还观察到噪声对我们的预测不确定性估计的积极影响。此外,我们观察到,随着输入样本中的噪声增加,熵CDF稳定地向更高的不确定性移动(图6C)。
    在这里插入图片描述
    图6:Evidential robustness under adversarial noise.对抗噪声下的证据稳健性。对抗噪声 ϵ \epsilon ϵ、预测误差(A)和估计的认知不确定性(B)之间的关系。(C)在 ϵ \epsilon ϵ增加状态下,证据回归的熵的CDF。(D)证据回归的预测、误差和不确定性中对抗干扰增加的影响的可视化。显示样本测试集图像的结果。
  • 证据不确定性对抗敌对干扰的稳健性在图6D中有更详细的描述,其示出了当我们用更大的噪声量(从左到右)扰动输入图像时预测的深度、误差和估计的像素级不确定性。不仅预测不确定性随着噪声的增加而稳定增加,而且整个图像中不确定性的空间集中也与误差保持紧密对应。

5 Related work相关工作

  • 我们的工作建立在不确定性估计[25,38,37,19]和使用神经网络建模概率分布[36,4,14,26]的大量历史工作基础上。
  • Prior networks and evidential models.先验网络和证据模型贝叶斯推理的一个主要焦点是将先验分布置于分层模型之上,以估计不确定性[12,13]。我们的方法与证据深度学习[[42]和先验网络[[32,33]密切相关,它们将狄利克雷先验置于离散分类预测之上。然而,这些工作要么依赖于将散度正则化为固定的、定义明确的先验[42,46],需要OOD训练数据[32,31,7,19],要么只能通过执行密度估计来估计任意的不确定性[11,18]。我们的工作通过关注连续回归学习任务来解决这些限制,在连续回归学习任务中,这种分歧正则化没有很好地定义,不需要任何面向对象的训练数据来估计任意和认知的不确定性。
  • Bayesian deep learning.贝叶斯深度学习在贝叶斯深度学习中,先验被放置在使用变分推理[[26]估计的网络权重上。相比之下,我们训练一个确定性神经网络将不确定性放在预测分布的前面,只需要一次向前传递来估计不确定性。此外,我们的不确定性估计方法被证明是校准良好的,能够检测OOD和敌对数据。

6 Conclusions, limitations, and scope 总结、缺陷和范围

  • 在这篇文章中,我们开发了一种新的方法,通过在似然输出上放置证据先验来学习回归问题中的不确定性。我们证明了组合预测与随机和认知不确定性估计,复杂视觉任务的可扩展性,以及对OOD数据的校准不确定性。这种方法广泛适用于回归任务,包括时间预测[17],属性预测[8]和控制学习[1,30]。虽然我们的方法比现有的方法有几个优点,但它的主要局限性在于调整正则化系数和在校准不确定性时有效地去除非误导性证据。虽然双重优化公式[47]可用于平衡正则化,但我们认为有必要进一步研究,以发现移除非误导性证据的替代方法。未来的分析使用其他选择的方差先验分布,如对数正态分布或重尾对数柯西分布,这对于确定先验选择对估计似然参数的影响至关重要。我们方法的效率、可扩展性和校准可以实现安全关键预测领域中鲁棒神经网络部署所需的精确和快速的不确定性估计。

Broader Impact

  • 神经网络的不确定性估计具有非常显著的社会影响。神经网络越来越多地被训练成黑盒预测器,并被置于更大的决策系统中,在这些系统中,神经网络预测的错误会对下游任务构成直接威胁。在这些条件下,需要用于校准不确定性估计的系统方法,特别是当这些系统部署在安全关键领域时,例如用于自主车辆控制[29]、医疗诊断[43],或者在具有大数据集不平衡和偏差的环境中,例如犯罪预测[24]和面部识别[3]。
  • 这项工作是对大部分机器学习研究的补充,机器学习研究不断推进神经网络精度和准确度的边界。我们的方法不是为了提高性能而单独优化更大的模型,而是着眼于如何让这些模型具备估计自身可信度的能力。我们的结果表明,我们的方法优于基线校准,这对于确保我们能够在一定程度上信任这些算法以及理解他们何时说“我不知道”也至关重要。
  • 虽然不确定性估计在机器学习中有明显而广泛的好处,但我们认为认识到可能出现的潜在社会挑战也很重要。随着性能和不确定性估计能力的提高,人类将不可避免地越来越信任模型的预测,以及在执行危险或不确定的决策之前捕捉它们的能力。因此,重要的是在这样的学习系统中继续追求冗余,以增加错误被发现并独立纠正的可能性。

猜你喜欢

转载自blog.csdn.net/weixin_38072029/article/details/112168266