137.CODA: A Real-World Road Corner Case Dataset for Object Detection in Autonomous Driving

用于自动驾驶中物体检测的真实世界道路角落案例数据集

ECCV2022
文章结构：

摘要

1.引言

2.相关工作

3.CODA属性

4.CODA的构造

4.1概述

4.2识别潜在的角落案例

4.3进一步检查

5.实验

5.1实验细节

5.2结果

6.讨论

7.结论

附录

1.针对什么问题（摘要）

当代用于自动驾驶的深度学习物体检测方法通常假定普通交通参与者的类别是固定的，如行人和汽车。

大多数现有的检测器无法检测到不常见的物体和角落的情况（例如，一只狗穿过街道），这在某些情况下可能会导致严重的事故，使得可靠的自动驾驶在现实世界的应用时间线不确定。

阻碍真正可靠的自动驾驶系统发展的一个主要原因是缺乏公共数据集来评估角落案例中物体检测器的性能。

个人理解：

问题：用于自动驾驶的现存检测方法通常假定交通参与者的类别是固定的，如行人和汽车。

不能识别不常见的物体和角落（如一只狗穿过街道、失控的轮胎、翻转的卡车），可能会导致交通事故。

原因：没有一个这样的数据集来评估角落案例中物体检测器的性能。

2.解决办法（摘要）

引入了一个名为CODA的数据集。

该数据集由1500个真实世界驾驶场景组成，每个场景平均包含四个物体级别的角落案例，横跨30多个物体类别。

2.1 引入CODA数据集的必要性（摘要、相关工作）

（相关工作）：

以前的检测器大多是在封闭世界环境中训练的，它只能检测属于预先定义的语义类别集的物体。

为了建立一个真实世界的感知系统，开放世界检测引起了更多关注，它可以明确地检测出未见过类别的物体是未知的。

（摘要）：

在CODA上，在大规模自动驾驶数据集上训练的标准物体检测器的性能在mAR上显著下降到不超过12.8%。

用最先进的物体检测器也不能可靠地识别CODA中的物体。

希望CODA数据集能够促进对现实世界自动驾驶的可靠检测的进一步研究。

mAR:

在深度学习中，mAR通常指的是“移动平均准确率”（moving average accuracy）。这是一种评估模型性能的指标，在训练过程中使用。它是通过计算模型在一段时间内预测正确的样本数量的移动平均值来衡量模型的准确率。

移动平均准确率可以帮助我们观察模型在训练过程中的稳定性和趋势。通过跟踪模型的移动平均准确率，我们可以了解模型是否在逐渐改进，或者是否出现了过拟合或欠拟合的情况。

为了计算移动平均准确率，我们首先定义一个窗口大小（例如，最近100个批次）。然后，每当经过一个新的批次时，我们计算该批次的准确率，并将其添加到移动平均值中。随着新的批次不断到来，旧的批次会从移动平均中剔除，以保持固定大小的窗口。

通过观察移动平均准确率，我们可以更好地理解模型的整体表现，并对其进行调整和优化。

必要性个人理解：并且在CODA上训练的物体检测器性能显著下降；用最先进的物体检测器也不能可靠地识别CODA中的物体。

3.创新点/贡献点（引言）

提出了CODA，第一个真实世界的道路角落案例数据集，作为开发完全可靠的自动驾驶车辆的基准。
评估了各种最先进的物体检测器（Cascade R-CNN [5], Deformable DETR [49], and Sparse R-CNN [39]），表明真正可靠的自动驾驶系统可能还远远没有达到。
介绍了COPG,一个用于开发角落案例的通用管道。

【角落案例建议生成办法（corner-case proposal generation,COPG）】

4.用了什么方法（引言）

CODA：

CODA是由自动驾驶的三个主要目标检测基准构建而成——KITTI、nuScenes 和ONCE

KITTI、nuScenes和ONCE都是与自动驾驶和计算机视觉相关的数据集或项目。

KITTI：KITTI（Karlsruhe Institute of Technology and Toyota Technological Institute）是一个著名的自动驾驶和计算机视觉数据集。它提供了包括图像、激光雷达点云、地面真值标签等多种类型的数据，用于目标检测、语义分割、立体视觉等任务的训练和评估。

nuScenes：nuScenes是由nuTonomy公司发布的一个大规模自动驾驶数据集和场景库。它收集了来自汽车传感器（如相机、激光雷达、雷达等）的数据，提供了高质量的2D和3D注释信息（如目标框、语义分割等），用于自动驾驶系统的开发和评估。

ONCE：ONCE（Object Annotation for Computer Vision Evaluation）是由中科院自动化研究所开发的一套目标检测数据集和标注工具。该项目旨在提供高质量的目标检测数据集，同时为用户提供方便的标注工具，以支持计算机视觉算法的研究和评估。

这些数据集和项目在自动驾驶和计算机视觉领域广泛应用，用于训练和评估算法，并推动相关技术的发展。

个人理解：CODA数据集来自于目标检测领域用于自动驾驶的三个主要数据集：KITTI、nuScenes 和ONCE

CODA的构成：（3.CODA的属性Properties）

CODA从超过一百万个场景的组合数据集（上面三个数据集）中选择了1500个场景（图像），（每个场景至少包含一个对自动驾驶车辆或周围的生命和资产有危害物体级角落案例），从而产生了近6000个高质量的带注释的道路拐角案例。
- 角落的情况可以归纳为7个超类，34个细粒度的类别。
  
  车辆、行人、骑自行车的人、动物、交通设施、障碍物和杂项。
  - 这些类可以分为新的类和常见的类。
    - 常见的类：汽车、行人…
    - 新的类：狗、婴儿车…
  - tricycle, car, pedestrian,cyclist,truck,bus motorcycle,bicycle ,traffic_light,traffic_sign,barrier,basket,bollard,cart,chair,concrete_block,construction_vehicle,debris,dog,dustbin,machinery,misc,moped,phone_booth,recreational_vehicle,sentry_box,stroller,suitcase,traffic_box,traffic_cone,traffic_island,trailer,warning_sign,wheelchair
    
    三轮车、汽车、行人、骑自行车的人、卡车、公共汽车、摩托车、自行车、交通灯、交通标志、障碍物、篮子、系船柱、手推车、椅子、混凝土块、建筑车辆、碎片、狗、垃圾箱、机械、杂项、轻便摩托车、电话亭、休闲车、岗亭、婴儿车、手提箱、交通箱、交通锥、交通岛、拖车、警告标志、轮椅
CODA中超过90% 的实例属于新的类别。
CODA数据多样性（3.CODA的属性Properties）
- 对象层面：包含广泛的对象类，大部分被现有的数据集忽略。如图3
- 场景层面：CODA包含来自三个不同国家的场景，如图2.
  - 展示了不同的天气状况，75%晴朗，22%多云，4% 多雨
  - 91%是白天场景，9%是夜晚场景
- 与道路异常数据集比较，如表1，这些数据集也有对象级别的注释。
  
  这些数据集要么是合成的，要么是小规模的。
  
  现实世界中最大的一个道路异常数据集BDD-Anomaly，只包含两个对象类别，尽管它在数量上与CODA相当
  
  图3
  
  图2
  
  表1
CODA的选择过程包括两个阶段：（引言、4.1概述）
- 关于潜在角落案例的全自动提案的生成（从初始数据中识别潜在角落案例）
- 对提案的人工检查和修正（手动选择和标记过程，消除提案的假阳性，对剩余真阳性进行分类，同时调整边界框，使其更加精确）
  我们的角落案例建议生成办法（corner-case proposal generation**,COPG**）如图5：
  - 大大减少了第二阶段的人力劳动
  - 是通过一个通用的管道，只需要相机和激光雷达传感器的原始数据，即二维图像和三维点云（也就是说，不需要注释），以识别任何给定数据集中的潜在角落情况。
    
    图5
我们希望CODA可以作为一种有效的手段来评估及其感知在自动驾驶中的鲁棒性，并反过来促进真正可靠的自动驾驶系统的发展。
（4.CODA的构造）

判断一个物体是否是角落案例的标准：
- 风险：物体阻挡或即将阻挡装有摄像头的自动驾驶车辆的潜在路径。
  
  不在道路上的静态物体，如树木和建筑物，不被认为会阻挡车辆。
  
  表明该物体可能被车辆击中
- 新颖性：该对象不属于任何自动驾驶基准的通用类，或者它是通用类的新实例。
  
  为简单起见，我们将SODA10M [13]的类作为公共类
  
  表明该物体很难检测到。
总结：

判断一个物体是否是角落案例的标准：
1.该物体可能被车辆击中
2.该物体很难检测到

满足这两点就是角落案例
1. 封闭世界物体检测器：
  
  单阶段：Reti-naNet[22]
  
  双阶段：Faster R-CNN[34]、Cascade R-CNN[5]
2. 开放世界物体检测器：
  
  最先进的ORE[19]