【分享NVIDIA GTC干货】建立对人工智能的信任——以自动驾驶汽车为例

【Building Trust in AI for Autonomous Vehicles [S51934]】

写在前面的整体体会：

在看完这个主题分享会的感悟，首先是觉得题目应该这样起。这个分享可以不仅局限于建立对自动驾驶汽车人工智能的信任，其实可以适用于任何需要算法检测、模型训练的人工智能应用场景。处在人工智能高速发展的时代，我们无可避免会与越来越多的智能化设备打交道，始终困于对人工智能的不信任，会在很大程度限制科技的发展与进步，就好比实现了能够自动驾驶的汽车但却没人敢使用。

会中提到的部分方法有些类似与底线思维，在检测过程即将包含所有可能值在内的区域，所有情况全部进行考虑又或是训练，以此来保证在面对现实世界的各种突发状况是能够做的安全应对。接下来我会带大家跟着会议的思路学习并在其中介绍我的感悟。

内容解读与体会（能解读的就解读了，解读不了的上翻译）

人工智能在现代自治系统中无处不在，人工智能提供了无与伦比的能力来处理现实世界驾驶的复杂性，从处理基础的单一信息提升到能够处理复杂的相关信息。

但是AI并不完美，在现实世界的复杂情况下，人工智能无可避免会面临各种失败，如图2中：异常事件：车辆在拖车上，而不是直接在道路上；不确定性：无法判断是行人还是骑自行车的人；异常事件；低空飞行的鸟被卷入，激光雷达扫描；域外物体：物体探测器未经训练，无法识别飞机。

作者举了一个感知传感器融合的例子，由于过于深奥，简单来说就是，要确保所有系统的安全，经过几次的技术迭代，系统结构冗余恢复了安全性，但代价是计算量增加和潜在的次优性能。

下图3介绍了通过算法进步建立对人工智能的信任，要满足三方面要求：

（1）设计时安全保证：健全的训练、不确定性量化、验证安全性；

（2）部署时安全保证：OOD/异常检测、输出层面的监测、故障缓解；

（3）产品生命周期中的安全性：V&V / 测试、数据监管、模型细化。

通过健全的训练强化人工智能模型

人工智能模型在很大程度上取决于它们接受训练的数据集。

不确定性量化

即使有强大的训练，数据驱动的模型仍然会出错，以物体姿态估计为例：主流物体姿态估计因为取的估计点过小，存在较大的误差可能性，没有性能保证；共形的关键点检测和校准的姿势不确定性能够有效覆盖姿态点范围，正确率高。

在第下图中，我们比较最坏情况下的错误限制在X轴对Y轴上的旋转误差。在所有测试图像中，我们的预测集包含基本事实，我们做两个观察，首先注意到蓝点从未交叉对角线，这就是我们想要的，因为我们想要错误边界大于真正的错误，以便我们可以做出下游的安全决策。其次，我们注意到很多情况下，我们的误差界限是相当接近真正的错误。正如我们看到的很多点相对靠近对角线，这也是我们想要的情况，因为我们想做出保守且安全的决定。

前面的事例说明了应用保形对AI模型的预测，可以允许AI组件沟通不确定性，在它们的沟通不确定性预测的方式是经过校准且值得信赖。特别是，我们目前专注于三个关键任务，即边界框检测，占用网络对于环境表示和轨迹预测。我们相信这样的系统提供校准的方法，不确定性将是关键，在以下位置做出更明智的决策部署时间。

正如讨论的，无论如何稳健的AI模型设计，是的，它们仍然可能犯错误，所以下一个问题是我们及时如何捕捉和实际解决此类错误。具体来说主要能缩短部署时间并安全保证是能够实时监控人工智能可能组件的模型级别故障。现在，作为前面提到过我们可以监控在两个层面上，首先在输入电平，从用于训练的数据人工智能模型查找不同的异常输入。其次在输出水平，我们可以利用期间的其他信息在线操作过程监控一致性和模型校准预测。例如，在预测任务，我们可以使用要监测值的历史观测结果进行预测。

更具体的说在输入监控，我们的目标是检测这些可能是异常输入对应于罕见事件未被有限训练数据集，如鸟儿在前面飞翔，激光雷达扫描，或者它们可能是不分发的输入，那是在外面用于训练的数据范围人工智能模型。例如，一架飞机靠近一条道路，对于模型经过训练，可以检测更常见的情况，道路车辆如汽车，卡车，行人和自行车。我们的目标都是预测实时，无论是人工智能模型将产生不稳定或给定测试的异常输出的时间输入。

作为预测能力，人工智能模型源于他们的训练数据，预测输入是否在给定的能力领域，AI模型需要比较针对培训的新投入数据。有几个我们可能比较这些输入的不同方式。首先，我们可以根据评估距离到一定距离函数在新输入和训练数据。但是选择正确的距离度量复杂的高维输入空间可能具有挑战性，在选择哪些训练输入转换到是困难的。作为试探性，我们可能会学习概率模型训练数据，然后评估在此分布下新投入的可能性。但从广义上讲，这种方法和前一个只关注模型的输入，而不是预测模型本身。测试时间有很多种方法，输入可能不同于训练输入，但不是全部差异是平等的有影响，有些可能仍然领先到合理的预测，而其他人可能引起完全错误的预测破坏下游决策制作。

这些金额正在量化不确定性在函数上，映射输入到输出，但量化这些不确定性在功能空间而不是在输入空间中操作独自一人，我们可以测量输入的新颖性，针对特定对象量身定制，预测任务摆在眼前。这方面主要挑战方法源于计算挑战建模不确定性在函数空间并对其进行估计，实时查看新的测试输入。行业标准认识不确定性估计是使用一个融合独立训练深度神经网络模型，集中模型之间的分歧对应认识论不确定性。这通常效果很好，并且在其他方面表现良好分部检测任务，但可能很昂贵，因为它需要培训和评估多个深度神经网络。我们的工作重点是开发更多的方法高效的培训和部署。具体来说，在我们之前的工作中SCOD，我们开发了一种方法应用来自矩阵的工具草图绘制到模型的信息矩阵。为了高效添加认识不确定性估计到任何预训练深度神经网络，SCOD可以匹配在分布多样检测任务。我们目前努力的重点是改善效率和可扩展性，这种方法将其应用于AV中中的各种型号堆栈，以及调查如何利用多样化和级别数据。例如，数据在操作过程中收集包含标注和异常事件，以更好的校准不确定性估计并改善其他分布检测性能。

现在除了检查人工智能模型的异常输入，我们还可以监控他们的输出，检测潜在故障和估计其相关影响关于整体视听安全。在此上下文，我们正在开发一个利用的框架概率预测和用于设计的统计工具任务感知输出监视器。让我们考虑一下任务监测房室感知，当AV为白色时模块车辆，并且正在接近与绿色和蓝色轿车。假设感知模块无法用蓝色汽车检测。首先，一个感知监视器用途，传感器之间的一致性检查模态，已检测潜在故障并识别故障模式。接下来，一个合理的合成器生成器用途，从监视器到的信息构造一组合理的场景。在此示例中通过将丢失的车辆插入适当的位置，具有希望实际的话场景至少近似代表。最后，通过利用轨迹预测预测结果，在不同的似是而非的场景，我们可以关于风险的原因感知故障对自动驾驶汽车。例如，在此我们注意到为什么在进行的场景中，AV的计划继续直行留下来安全且可能达到低成本。存在额外的合理场景中的车辆，彻底改变了预测成本分布，以及放置高概率质量在高成本不安全的结果。通过这种方式，我们可以表征这种感知的失败建模为高风险构架和触发故障安全操作，因此，在我们最近的工作中，我们有专注于风险挑战，感知估计监测，并提出使用统计的技术耦合器估算工具两者之间的相对风险，感知到难以置信的场景。我们目前正在研究推进两个失败，检测和合理场景此的生成模块管道，并兴奋将此框架应用于AV堆栈开发和高效的监视器仅触发安全操作，当故障确实构成风险时自主的安全车辆。

现在尽管我们最好的设计时间努力，当然是错误不可避免的会发生。在这一点上，我们的理想情况下，运行时监视器将它们标记为已讨论并将激活回退。类似于当前的高级驾驶员辅助系统ADAS，我们希望我们的缓解措施系统仅在以下情况下介入绝对必要。为了做到这一点，我们需要有一个理解安全的边界行为和要执行的操作，当这些边界达到。例如，两辆车近在咫尺。

最后把所有这些方面我们共同努力归结到一起，我们的愿景是努力弥合差距，从基于人工智能的组件到系统级安全规范的差距，同时最小化的影响性能。