文章目录

一、检测相关(9篇)

一、检测相关(9篇)

1.1 GroupLane: End-to-End 3D Lane Detection with Channel-wise Grouping

GroupLane：采用按通道分组的端到端3D车道检测

https://arxiv.org/abs/2307.09472

在这里插入图片描述
由于实际部署需求，效率对于 3D 车道检测非常重要。在这项工作中，我们提出了一种简单、快速、端到端的检测器，仍然保持较高的检测精度。具体来说，我们设计了一组基于行分类的全卷积头。与以前的同行相比，我们的支持识别垂直和水平车道。此外，我们的方法是第一个在鸟瞰图中执行行分类的方法。在头部中，我们将特征分成多个组，每组特征对应于一个车道实例。在训练期间，使用所提出的单胜一对一匹配来计算损失，将预测与车道标签相关联，并且不需要后处理操作来进行推理。这样，我们提出的全卷积检测器GroupLane就实现了像DETR一样的端到端检测。在 OpenLane、Once-3DLanes 和 OpenLane-Huawei 3 个现实世界的 3D Lane 基准测试中进行评估，采用 ConvNext-Base 作为主干的 GroupLane 在 OpenLane 验证集中的 F1 分数比已发布的最先进的 PersFormer 高出 13.6%。此外，采用 ResNet18 的 GroupLane 仍然比 PersFormer 高出 4.9% 的 F1 分数，而推理速度快了近 7 倍，而 FLOPs 仅为其 13.3%。

1.2 Occlusion Aware Student Emotion Recognition based on Facial Action Unit Detection

基于人脸动作单元检测的遮挡感知学生情绪识别

https://arxiv.org/abs/2307.09465

在这里插入图片描述
鉴于美国学院和大学中大约一半的科学、技术、工程和数学 (STEM) 本科生在第一学年结束时离开[15]，改善课堂环境质量至关重要。这项研究的重点是监测学生在课堂上的情绪，作为他们参与度的指标，并提出了解决这个问题的方法。通过实验评估不同面部部位对情绪识别模型性能的影响。为了在部分遮挡下测试所提出的模型，引入了人工遮挡的数据集。这项工作的新颖之处在于提出了一种用于面部动作单元（AU）提取的遮挡感知架构，该架构采用了注意力机制和自适应特征学习。稍后可以使用 AU 对课堂环境中的面部表情进行分类。
这篇研究论文的研究结果为分析面部图像以进行情感参与分析时处理遮挡提供了宝贵的见解。所提出的实验证明了在课堂环境中考虑遮挡和提高面部分析模型可靠性的重要性。这些发现也可以扩展到其他普遍存在闭塞的环境。

1.3 Knowledge Distillation for Object Detection: from generic to remote sensing datasets

面向目标检测的知识提取：从通用数据集到遥感数据集

https://arxiv.org/abs/2307.09264

在这里插入图片描述
知识蒸馏是一种著名的模型压缩技术，是计算机视觉和遥感领域的一个活跃的研究领域。在本文中，我们在遥感环境中评估了各种现成的目标检测知识蒸馏方法，这些方法最初是在 Pascal VOC 等通用计算机视觉数据集上开发的。特别是，涵盖 logit 模仿和特征模仿方法的方法被应用于使用 xView 和 VEDAI 数据集等众所周知的基准的车辆检测。进行了大量的实验来比较这些方法的相对性能和相互关系。实验结果显示出很大的变化，并证实了遥感数据集结果聚合和交叉验证的重要性。

1.4 A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future

开放词汇检测与分词研究综述：过去、现在和未来

https://arxiv.org/abs/2307.09220

在这里插入图片描述
作为计算机视觉最基本的任务，目标检测和分割在深度学习时代取得了巨大的进步。由于昂贵的手动标记，现有数据集中的注释类别通常是小规模的和预定义的，即最先进的检测器和分割器无法泛化到封闭词汇表之外。为了解决这一限制，过去几年人们越来越关注开放词汇检测（OVD）和分割（OVS）。在本次调查中，我们对 OVD 和 OVS 过去和最近的发展进行了全面的回顾。为此，我们根据任务类型和方法制定了分类法。我们发现弱监督信号的许可和使用可以很好地区分不同的方法，包括：视觉语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习。所提出的分类法在不同的任务中是通用的，涵盖对象检测、语义/实例/全景分割、3D 场景和视频理解。每个类别都详细讨论了其主要原则、主要挑战、发展路线、优势和劣势。此外，我们对每项任务以及每种方法的重要组成部分进行了基准测试。最后，提供了几个有希望的方向来刺激未来的研究。

1.5 You’ve Got Two Teachers: Co-evolutionary Image and Report Distillation for Semi-supervised Anatomical Abnormality Detection in Chest X-ray

你有两位老师：共同进化图像和报告蒸馏用于胸部X光解剖异常的半监督检测

https://arxiv.org/abs/2307.09184

在这里插入图片描述
胸部 X 射线 (CXR) 解剖异常检测旨在定位和表征 X 光片中的心肺放射学发现，这可以加快临床工作流程并减少观察监督。大多数现有方法尝试在完全监督的设置中执行此任务，这需要昂贵的大量异常注释，或者在弱监督的设置中，在性能上仍然严重落后于完全监督的方法。在这项工作中，我们提出了一种协同进化图像和报告蒸馏（CEIRD）框架，该框架通过将视觉检测结果与配对放射学报告中的文本分类异常作为基础来实现 CXR 中的半监督异常检测，反之亦然。具体来说，基于经典的师生伪标签蒸馏（TSD）范式，我们额外引入了一种辅助报告分类模型，其预测用于主要视觉检测任务中的报告引导伪检测标签细化（RPDLR）。相反，我们还在辅助报告分类任务中使用异常引导伪分类标签细化（APCLR）的视觉检测模型的预测，并提出了一种共同进化策略，其中视觉和报告模型相互促进，RPDLR和APCLR交替执行。为此，我们有效地将报告的弱监督纳入半监督的 TSD 管道中。除了跨模态伪标签细化之外，我们还提出了一种图像内模态自适应非极大值抑制，其中教师视觉模型生成的伪检测标签通过学生的高置信度预测进行动态校正。公共 MIMIC-CXR 基准测试的实验结果表明，CEIRD 的性能优于几种最新的弱监督和半监督方法。

1.6 Jean-Luc Picard at Touché 2023: Comparing Image Generation, Stance Detection and Feature Matching for Image Retrieval for Arguments

Jean-Luc Picard在Touché2023上的演讲：比较图像生成、姿态检测和用于参数图像检索的特征匹配

https://arxiv.org/abs/2307.09172

在这里插入图片描述
参与共享任务“参数的图像检索”，我们使用不同的管道进行图像检索，包括图像生成、姿态检测、预选和特征匹配。我们提交了四种具有不同管道布局的不同运行，并将它们与给定的基线进行比较。我们的管道的性能与基线类似。

1.7 MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection

MLF-DET：多层融合的跨通道三维目标检测

https://arxiv.org/abs/2307.09155

在这里插入图片描述
在本文中，我们提出了一种新颖有效的多级融合网络，称为MLF-DET，用于高性能跨模态3D对象检测，它集成了特征级融合和决策级融合，以充分利用图像中的信息。对于特征级融合，我们提出了多尺度体素图像融合（MVI）模块，它将多尺度体素特征与图像特征密集对齐。对于决策级融合，我们提出了轻量级特征提示置信度校正（FCR）模块，该模块进一步利用图像语义来校正检测候选的置信度。此外，我们设计了一种有效的数据增强策略，称为遮挡感知GT采样（OGS），以在训练场景中保留更多的采样对象，从而减少过度拟合。对 KITTI 数据集的大量实验证明了我们方法的有效性。值得注意的是，在竞争极其激烈的 KITTI 汽车 3D 物体检测基准上，我们的方法达到了 82.89% 的中等 AP，并且在没有任何花哨的情况下实现了最先进的性能。

1.8 MVA2023 Small Object Detection Challenge for Spotting Birds: Dataset, Methods, and Results

MVA2023小鸟检测挑战赛：数据集、方法和结果

https://arxiv.org/abs/2307.09143

在这里插入图片描述
小物体检测 (SOD) 是一个重要的机器视觉主题，因为 (i) 各种现实世界的应用需要对远处物体进行物体检测，(ii) 由于小物体的图像外观嘈杂、模糊且信息量较少，SOD 是一项具有挑战性的任务。本文提出了一个新的 SOD 数据集，由 39,070 张图像组成，其中包括 137,121 个鸟类实例，称为小对象检测鸟类观测数据集（SOD4SB）。本文介绍了 SOD4SB 数据集挑战的细节。共有 223 名参与者参加了本次挑战。本文简要介绍了获奖办法。公共测试集的数据集、基线代码和评估网站都是公开的。

1.9 In Defense of Clip-based Video Relation Detection

为基于剪辑的视频关系检测辩护

https://arxiv.org/abs/2307.08984

在这里插入图片描述
视频视觉关系检测（VidVRD）旨在使用空间边界框和时间边界检测视频中的视觉关系三元组。现有的 VidVRD 方法可以大致分为自下而上和自上而下的范例，具体取决于它们对关系进行分类的方法。自下而上的方法遵循基于剪辑的方法，对短剪辑小管对的关系进行分类，然后将它们合并为长视频关系。另一方面，自上而下的方法直接对长视频管对进行分类。虽然最近利用视频 Tubelet 的基于视频的方法已经显示出有希望的结果，但我们认为，空间和时间上下文的有效建模比剪辑 Tubelet 和视频 Tubelet 之间的选择发挥着更重要的作用。这促使我们重新审视基于剪辑的范例并探索 VidVRD 的关键成功因素。在本文中，我们提出了一种层次上下文模型（HCM），它丰富了基于对象的空间上下文和基于剪辑的基于关系的时间上下文。我们证明，与大多数基于视频的方法相比，使用 Clip Tubelet 可以实现卓越的性能。此外，使用剪辑 Tubelet 为模型设计提供了更大的灵活性，并有助于减轻与视频 Tubelet 相关的限制，例如具有挑战性的长期对象跟踪问题以及长期 Tubelet 特征压缩中的时间信息丢失。在两个具有挑战性的 VidVRD 基准上进行的大量实验验证了我们的 HCM 实现了新的最先进的性能，突出了在基于剪辑的范例中整合先进的空间和时间上下文建模的有效性。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（7 月 19 日论文合集）