【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 29 日论文合集)

一、检测相关(10篇)

1.1 Low-Confidence Samples Mining for Semi-supervised Object Detection

用于半监督目标检测的低置信度样本挖掘

论文地址:

https://arxiv.org/abs/2306.16201

在这里插入图片描述
来自未标记数据的可靠伪标签在半监督对象检测(SSOD)中发挥着关键作用。 然而,最先进的SSOD方法都依赖于高置信度的伪标签,而忽略了有价值的低置信度的伪标签。 此外,对未标记数据的挖掘不充分导致召回率过低,从而损害网络训练。 在本文中,我们提出了一种新颖的低置信度样本挖掘(LSM)方法来有效地利用低置信度伪标签。 具体来说,我们根据低分辨率特征图开发了一个额外的伪信息挖掘(PIM)分支来提取可靠的大面积实例,其 IoU 高于小面积实例。 由于 PIM 和主分支之间的互补预测,我们进一步设计了自蒸馏(SD),以相互学习的方式补偿两者。 同时,上述方法的可扩展性使我们的LSM能够分别应用于Faster-RCNN和Deformable-DETR。 在 MS-COCO 基准上,我们的方法在 5% 的标记率下比最先进的方法实现了 3.54% 的 mAP 改进。

1.2 Lifelong Change Detection: Continuous Domain Adaptation for Small Object Change Detection in Every Robot Navigation

终生变化检测:基于连续域自适应的机器人导航小目标变化检测

论文地址:

https://arxiv.org/abs/2306.16086

在这里插入图片描述
最近新兴的机器人研究领域——地面视图变化检测,由于视觉不确定性与复杂的非线性透视投影相结合而受到不适定性的困扰。 为了规范不适定性,常用的监督学习方法(例如 CSCD-Net)依赖于手动注释的高质量对象类特定先验。 在这项工作中,我们考虑了没有手动注释的一般应用领域,并提出了一种完全自我监督的方法。 本方法采用了强大且通用的想法,即日常机器人导航期间检测到的对象变化可以重新用作额外的先验,以改进未来的变化检测任务。 此外,在一个新的具有挑战性的实际应用场景:地景小物体变化检测中,实现并验证了一个鲁棒的框架。

1.3 A serial dual-channel library occupancy detection system based on Faster RCNN

基于快速RCNN的串口双通道图书馆占有率检测系统

论文地址:

https://arxiv.org/abs/2306.16080

在这里插入图片描述
高校图书馆的占座现象是一个普遍存在的问题。 然而,现有的解决方案,例如基于软件的座位预订和基于传感器的占用检测,已被证明不足以有效解决这个问题。 在本研究中,我们提出了一种新颖的方法:基于 Faster RCNN 的串行双通道目标检测模型。 此外,我们开发了用户友好的Web界面和移动应用程序,以创建基于计算机视觉的图书馆座位占用检测平台。 为了构建我们的数据集,我们将现实世界的数据收集与 UE5 虚拟现实相结合。 我们的测试结果还表明,使用个性化虚拟数据集可以显着提高卷积神经网络(CNN)在专用场景中的性能。 串行双通道检测模型包括三个基本步骤。 首先,我们采用 Faster RCNN 算法来确定座位是否有人占用。 随后,我们利用基于迁移学习的对象分类算法对空座图像进行分类和识别。 这样就无需人工判断某人是否涉嫌占用座位。 最后,Web界面和APP分别向图书馆员和学生提供座位信息,实现综合服务。 通过利用深度学习方法,这项研究有效地解决了图书馆系统中的座位占用问题。 它显着提高了座位占用识别的准确性,减少了训练 CNN 所需的计算资源,并大大提高了图书馆座位管理的效率。

1.4 OpenNDD: Open Set Recognition for Neurodevelopmental Disorders Detection

OpenNDD:用于神经发育障碍检测的开集识别

论文地址:

https://arxiv.org/abs/2306.16045

在这里插入图片描述
神经发育障碍 (NDD) 是一组非常普遍的疾病,具有很强的临床行为相似性,这使得准确识别不同的 NDD(例如自闭症谱系障碍 (ASD) 和注意力缺陷多动障碍 (ADHD))变得非常具有挑战性。 而且,NDDs的诊断没有可靠的生理标志物,仅依靠心理评估标准。 然而,通过智能辅助诊断来防止误诊和漏诊至关重要,这与后续相应的治疗密切相关。 为了缓解这些问题,我们提出了一种用于NDD筛选和检测的新型开放集识别框架,这是开放集识别在该领域的首次应用。 它结合了自动编码器和对抗性倒数点开集识别来准确识别已知类别以及识别从未遇到过的类别。 考虑到不同受试者之间的强烈相似性,我们提出了一种称为 MMS 的联合缩放方法来区分未知疾病。 为了验证我们提出的方法的可行性,我们在自闭症脑成像数据交换 I (ABIDE I) 和 ADHD-200 样本 (ADHD-200) 的混合数据集上设计了一个相互对立实验协议,其中包含来自四个站点的 791 个样本和 结果证明了各种指标的优越性。 我们的OpenNDD取得了可喜的性能,准确率为77.38%,AUROC为75.53%,开放集分类率高达59.43%。

1.5 AFPN: Asymptotic Feature Pyramid Network for Object Detection

AFPN:目标检测的渐近特征金字塔网络

论文地址:

https://arxiv.org/abs/2306.15988

在这里插入图片描述
多尺度特征对于在目标检测任务中对具有尺度方差的目标进行编码非常重要。 多尺度特征提取的常见策略是采用经典的自上而下和自下而上的特征金字塔网络。 然而,这些方法会遭受特征信息的丢失或退化,从而损害非相邻级别的融合效果。 本文提出了一种渐近特征金字塔网络(AFPN)来支持非相邻级别的直接交互。 AFPN 是通过融合两个相邻的低级特征来启动的,并渐近地将更高级别的特征合并到融合过程中。 这样就可以避免非相邻级别之间出现较大的语义差距。 考虑到在每个空间位置的特征融合期间可能出现多对象信息冲突的可能性,进一步利用自适应空间融合操作来减轻这些不一致性。 我们将提出的 AFPN 纳入两阶段和一阶段目标检测框架,并使用 MS-COCO 2017 验证和测试数据集进行评估。 实验评估表明,我们的方法比其他最先进的特征金字塔网络取得了更具竞争力的结果。

1.6 Knowledge-Enhanced Hierarchical Information Correlation Learning for Multi-Modal Rumor Detection

知识增强的层次化信息关联学习在多模式谣言检测中的应用

论文地址:

https://arxiv.org/abs/2306.15946

在这里插入图片描述
社交媒体平台上文字、图片等形式的谣言爆发式增长,引起高度关注。 现有研究对跨模态信息交互和融合做出了重大贡献,但它们未能充分探索不同模态内容之间的层次和复杂语义相关性,严重限制了它们在检测多模态谣言方面的性能。 在这项工作中,我们通过对基本语义相关性和高阶知识增强实体相关性进行联合建模,提出了一种用于多模态谣言检测的新型知识增强分层信息相关性学习方法(KhiCL)。 具体来说,KhiCL 利用跨模态联合字典将异构单模态特征转移到公共特征空间中,并通过跨模态融合层捕获基本的跨模态语义一致性和不一致性。 此外,考虑到多模态内容的描述是围绕实体进行叙述的,KhiCL从图像和文本中提取视觉和文本实体,并设计知识相关性推理策略来找到外部知识图中每对实体之间的最短语义相关路径, 并吸收该路径中其他连接实体的所有补充上下文知识,以学习知识增强的实体表示。 此外,KhiCL 利用签名注意力机制通过测量相应的语义相关距离来对模态内和模态间实体对的知识增强实体一致性和不一致性进行建模。 大量的实验证明了所提出方法的有效性。

1.7 NIPD: A Federated Learning Person Detection Benchmark Based on Real-World Non-IID Data

NIPD:一种基于真实非IID数据的联合学习人检测基准

论文地址:

https://arxiv.org/abs/2306.15932

在这里插入图片描述
联邦学习(FL)作为一种保护隐私的分布式机器学习,已在无线通信网络中得到迅速应用。 FL 使物联网 (IoT) 客户能够获得经过良好训练的模型,同时防止隐私泄露。 如果与 FL 结合直接在边缘处理视频数据,则可以将人员检测部署在计算能力有限的边缘设备上。 然而,由于不同相机的硬件和部署场景不同,相机采集的数据呈现非独立同分布(non-IID),FL聚合得出的全局模型效果较差。 同时,现有研究缺乏现实世界FL目标检测的公共数据集,这不利于研究物联网相机上的非独立同分布问题。 因此,我们开源了一个非 IID 物联网人员检测 (NIPD) 数据集,该数据集是从五个不同的摄像头收集的。 据我们所知,这是第一个真正的基于设备的非独立同分布人员检测数据集。 基于该数据集,我们解释了如何建立 FL 实验平台并为非 IID 人员检测提供基准。 NIPD有望推动FL的应用和智慧城市的安全保障。

1.8 Evidential Detection and Tracking Collaboration: New Problem, Benchmark and Algorithm for Robust Anti-UAV System

证据检测与跟踪协作:稳健反无人机系统的新问题、新基准和新算法

论文地址:

https://arxiv.org/abs/2306.15767

在这里插入图片描述
无人机(UAV)已广泛应用于交通、监控、军事等领域。 然而,它们潜在的安全和隐私侵犯问题日益严重,并严重限制了其更广泛的应用,这凸显了无人机感知和防御(反无人机)的至关重要性。 尽管如此,以前的工作已经将这种反无人机任务简化为跟踪问题,其中始终提供无人机的先验信息; 这种方案在现实世界的反无人机任务(即复杂场景、不确定出现和重复出现的无人机以及实时无人机监视)中失败。 在本文中,我们首先提出了一个新的实用反无人机问题,其特点是在没有先验无人机信息的情况下复杂场景中的无人机感知。 为了对这一具有挑战性的任务进行基准测试,我们提出了名为 AntiUAV600 的最大无人机数据集和新的评估指标。 AntiUAV600 包含 600 个具有随机、快速和小型无人机的挑战性场景的视频序列,超过 723K 的热红外帧,带有密集的边界框注释。 最后,我们通过全球无人机检测和本地无人机跟踪的证据协作开发了一种新颖的反无人机方法,该方法有效地解决了所提出的问题,并可以作为未来研究的强有力的基线。 大量实验表明,我们的方法优于 SOTA 方法,并验证了 AntiUAV600 由于其大规模和复杂性而增强无人机感知性能的能力。 我们的数据集、预训练模型和源代码将公开发布。

1.9 Face Morphing Attack Detection with Denoising Diffusion Probabilistic Models

基于去噪扩散概率模型的人脸变形攻击检测

论文地址:

https://arxiv.org/abs/2306.15733

在这里插入图片描述
变形人脸图像最近越来越受到现有人脸验证系统的关注,因为它们相对容易生成,并且可用于冒充某人的身份以达到各种恶意目的。 因此,能够很好地推广不同变形技术的高效变形攻击检测 (MAD) 至关重要。 现有的 MAD 技术主要依赖于从真实图像和变形图像的示例中学习的判别模型,因此,在面对未知类型的变形攻击时,通常表现出次优的泛化性能。 为了解决这个问题,我们在本文中提出了一种新颖的、基于扩散的 MAD 方法,该方法仅从真实图像的特征中学习。 然后,我们的模型将各种形式的变形攻击检测为分布外样本。 我们在四个不同的数据集(CASIA-WebFace、FRLL-Morphs、FERET-Morphs 和 FRGC-Morphs)上进行了严格的实验,并将所提出的解决方案与判别训练模型和一次性 MAD 模型进行了比较。 实验结果表明,我们的 MAD 模型在所有考虑的数据集上都取得了极具竞争力的结果。

1.10 A Cascaded Approach for ultraly High Performance Lesion Detection and False Positive Removal in Liver CT Scans

一种用于肝脏CT超高性能病变检测和假阳性去除的级联方法

论文地址:

https://arxiv.org/abs/2306.16036

在这里插入图片描述
肝癌在世界范围内具有较高的发病率和死亡率。 多相CT是检测/识别和诊断肝脏肿瘤的主要医学成像方式。 自动检测和分类 CT 图像中的肝脏病变有可能改善临床工作流程。 由于肝脏病变在大小、外观、图像对比度以及肿瘤类型或亚型的复杂性方面存在很大差异,因此这项任务仍然具有挑战性。 在这项工作中,我们定制了一个用于多相 CT 图像的多对象标记工具,该工具用于整理包含 1,631 名患者的四相 CT 图像、多器官掩模和多病灶(六个 经病理证实的主要肝脏病变类型)面罩。 我们开发了一个两阶段的肝脏病变检测流程,其中第一阶段的高灵敏度检测算法发现尽可能多的病变建议,第二阶段的病变重分类算法消除尽可能多的误报。 多灵敏度病灶检测算法最大限度地利用了分割的个体概率图的信息利用,病灶洗牌增强有效地探索了病灶与肝脏之间的纹理对比度。 该模型对 331 例患者进行了独立测试,在多期对比增强 CT(99.2%、97.1%,诊断环境)和平扫 CT(97.3%、95.7%,筛查)中实现了恶性肿瘤分类的高灵敏度和特异性环境)。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131482249