【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（12 月 5 日论文合集）（上）

文章目录

一、检测相关(17篇)

一、检测相关(17篇)

1.1 Optimizing Camera Configurations for Multi-View Pedestrian Detection

多视角行人检测中摄像机配置的优化

https://arxiv.org/abs/2312.02144

联合考虑多个摄像机视图（多视图）对于遮挡下的行人检测非常有效。对于这样的多视图系统，具有良好设计的相机配置是至关重要的，包括相机位置、方向和视场（FoV）。通常，这些配置是基于人类经验或经验学来制作的。在这项工作中，我们提出了一种新的解决方案，具有基于变压器的相机配置生成器。使用强化学习，该生成器自主探索动作空间内的大量组合，并根据训练数据集搜索提供最高检测准确度的配置。生成器学习高级技术，如最大化覆盖范围，最小化遮挡和促进协作。在多个模拟场景中，我们基于transformer的模型生成的配置始终优于随机搜索，基于启发式的方法和人类专家设计的配置，为未来的相机布局优化提供了启示。

1.2 Learning Pseudo-Labeler beyond Noun Concepts for Open-Vocabulary Object Detection

基于名词概念外的伪标签器的开放词汇目标检测

https://arxiv.org/abs/2312.02103

开放词汇对象检测（OVOD）最近获得了极大的关注，作为实现类人视觉智能的关键一步。现有的OVOD方法通过将视觉语言预训练模型中任意概念的知识传递给检测器，将目标词汇从预定义的类别扩展到开放世界。虽然以前的方法取得了显著的成功，但它们受到间接监督或有限的可转移概念的影响。在本文中，我们提出了一种简单而有效的方法来直接学习任意概念的区域文本对齐。具体而言，所提出的方法旨在学习任意图像到文本的映射，用于任意概念的伪标记，称为任意概念的伪标记（PLAC）。所提出的方法表现出竞争力的性能上的标准OVOD基准名词概念和一个很大的改进指的表达式理解基准的任意概念。

1.3 Unsupervised Anomaly Detection using Aggregated Normative Diffusion

基于聚合规范扩散的无监督异常检测

https://arxiv.org/abs/2312.01904

早期检测医学图像（如脑MRI）中的异常与许多疾病的诊断和治疗高度相关。有监督的机器学习方法仅限于少量的病理，其中有标记数据的良好可用性。相比之下，无监督异常检测（UAD）有可能通过发现与正常模式的偏差来识别更广泛的异常。我们的研究表明，现有的最先进的UAD方法不能很好地推广到现实的多模态MR数据中的各种类型的异常。为了克服这个问题，我们引入了一种新的UAD方法，称为聚合规范扩散（ANDi）。ANDi通过聚合已在金字塔高斯噪声上训练的去噪扩散概率模型（DDPM）中预测的去噪步骤和地面真实向后转换之间的差异来操作。我们针对三个最近的UAD基线和三个不同的脑MRI数据集验证了ANDi。我们表明，ANDi，在某些情况下，大大超过这些基线，并显示出不同类型的异常增加的鲁棒性。特别是在检测多发性硬化（MS）病变方面，ANDi在AUPRC方面的改善高达178%。

1.4 Exploring Multi-Modal Fusion for Image Manipulation Detection and Localization

基于多模式融合的图像操控检测与定位研究

https://arxiv.org/abs/2312.01790

最近的图像处理定位和检测技术通常利用由噪声敏感滤波器（例如SRM和Bayar卷积）产生的取证伪影和痕迹。在本文中，我们展示了这种方法中常用的不同过滤器擅长揭示不同类型的操作，并提供互补的法医痕迹。因此，我们探索合并这些滤波器的输出的方法，并旨在利用所产生的伪影的互补性来执行图像操作定位和检测（IMLD）。我们提出了两种不同的方法：一种是从每个取证过滤器中产生独立的特征，然后将它们融合（这被称为后期融合），另一种是对不同模态输出进行早期混合，并产生早期组合特征（这被称为早期融合）。我们证明了这两种方法在图像处理定位和检测方面都具有竞争力的性能，在多个数据集上优于最先进的模型。

1.5 Localizing and Assessing Node Significance in Default Mode Network using Sub-Community Detection in Mild Cognitive Impairment

基于亚社区检测的轻度认知障碍缺省模式网络节点重要性定位与评估

https://arxiv.org/abs/2312.01768

我们的研究旨在利用功能磁共振成像（fMRI），以确定受影响的大脑区域内的默认模式网络（DMN）的轻度认知障碍（MCI），使用一种新的节点显著性评分（NSS）。我们构建主题特定的DMN图，采用部分相关的区域感兴趣（ROI），使DMN。对于DMN图，ROI是节点，并且基于部分相关性来确定边。四个流行的社区检测算法（集团渗透方法（CPM），鲁汶算法，贪婪模块和领先的特征向量）被用来确定最大的子社区。NSS评级是针对每个节点得出的，考虑到（I）在所有科目中的类内最大子社区中的频率和（II）根据所有四种方法在最大子社区中的发生率。在计算健康和MCI受试者中每个ROI的NSS之后，我们量化分数差异以识别受MCI影响最大的节点。结果显示，10个DMN节点的差异超过20%，最大的PCC和梭形，显示45.69%和43.08%的差异。这与现有的医学文献相一致，另外提供了一种定量测量方法，可以对受影响的ROI进行排序。这些发现提供了有价值的见解，并可能导致治疗策略积极针对受影响的节点。

1.6 Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection

基于多尺度时间特征的动态擦除网络弱监督视频异常检测

https://arxiv.org/abs/2312.01764

弱监督视频异常检测的目标是仅使用视频级标记数据来学习检测模型。然而，先前的研究通常将视频分成固定长度的片段，而不考虑异常的复杂性或持续时间。此外，这些研究通常只检测到最异常的片段，可能忽略了异常的完整性。为了解决这些限制，我们提出了一个动态擦除网络（DE-Net）的弱监督视频异常检测，学习多尺度的时间特征。具体来说，处理异常事件的持续时间变化，我们首先提出了一个多尺度的时间建模模块，能够从不同长度的片段中提取特征，并在不同的时间尺度上捕获局部和全局视觉信息。然后，我们设计了一个动态擦除策略，动态评估检测到的异常的完整性和擦除突出的异常段，以鼓励模型发现温和的异常段的视频。该方法获得了良好的性能相比，几个国家的最先进的方法在三个数据集：XD-暴力，暴力和UCF-犯罪。代码将在https://github.com/ArielZc/DE-Net上提供。

1.7 Likelihood-Aware Semantic Alignment for Full-Spectrum Out-of-Distribution Detection

基于似然感知的全谱失配检测语义对齐

https://arxiv.org/abs/2312.01732

全谱分布外（F-OOD）检测旨在准确识别分布内（ID）样本，同时遇到语义和协变量变化。然而，现有的分布外（OOD）检测器往往过拟合的协方差信息，忽略内在的语义相关性，不足以适应复杂的域变换。为了解决这个问题，我们提出了一个似然感知语义对齐（LSA）框架，以促进图像-文本对应到语义高似然区域。LSA包括一个离线高斯采样策略，有效地从类条件高斯分布中采样语义相关的视觉嵌入，以及一个双向提示定制机制，用于调整ID相关和负上下文以区分ID/OOD边界。大量的实验表明，我们提出的LSA显着的OOD检测性能，特别是在棘手的Near-OOD设置，超过现有的方法的保证金为15.26 $和18.88 $的两个F-OOD基准，分别。

1.8 Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection

一步法人-物交互检测的解缠交互表示

https://arxiv.org/abs/2312.01713

人-物交互检测是以人为中心的图像理解的核心任务。最近的一个阶段的方法采用了Transformer解码器收集图像范围的线索，是有用的相互作用预测，但是，使用这种方法获得的相互作用表示纠缠，缺乏可解释性。相比之下，传统的两阶段的方法受益于他们的能力，组成的相互作用的功能，在一个解开和解释的方式。在本文中，我们提高了一阶段的方法，使他们能够提取解开相互作用表示的性能。首先，我们提出了分流交叉注意（SCA）提取人的外观，对象外观，并使用不同的交叉注意头全局上下文特征。这是通过在不同头部产生的交叉注意力图上施加不同的掩模来实现的。其次，我们引入了交互感知姿态估计（IPE）任务，使用解纠缠解码器来学习交互相关的人类姿态特征。这是通过一个新颖的注意力模块来实现的，该模块准确地捕获与当前交互类别相关的人类关键点。最后，我们的方法融合的外观特征和姿态特征，通过元素明智的增加，形成的互动表示。实验结果表明，我们的方法可以很容易地应用到现有的一级HOI检测器。此外，我们在两个基准测试中实现了最先进的性能：HICO-DET和V-COCO。

1.9 BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection

BEVNeXt：重振密集的BEV框架以进行3D对象检测

https://arxiv.org/abs/2312.01696

最近，基于查询的Transformer解码器的兴起正在重塑基于相机的3D对象检测。这些基于查询的解码器正在超越传统的基于密集BEV（鸟瞰图）的方法。然而，我们认为密集BEV框架仍然很重要，因为它们在深度估计和对象定位方面具有出色的能力，可以准确全面地描绘3D场景。本文旨在通过引入我们提出的增强组件来解决现有的基于密集BEV的3D对象检测器的缺点，包括执行对象级嵌入的CRF调制深度估计模块，具有扩展感受野的长期时间聚合模块，以及将透视技术与CRF调制深度嵌入相结合的两阶段对象解码器。这些增强导致了一个被称为BEVNeXt的“现代化”密集BEV框架。在nuScenes基准测试中，BEVNeXt在各种设置下都优于基于BEV和基于查询的框架，在nuScenes测试集上获得了64.2 NDS的最佳结果。