【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 27 日论文合集)

文章目录

一、检测相关(15篇)

1.1 Probabilistic Risk Assessment of an Obstacle Detection System for GoA 4 Freight Trains

果阿4号货运列车障碍物检测系统的概率风险评估

论文地址:

https://arxiv.org/abs/2306.14814

在这里插入图片描述
本文讨论了自动化等级(GoA)~4 低速货运列车障碍物检测功能设计的定量风险评估方法。 在这个 5 步方法中,从单个检测通道开始,到由三个独立的双通道模块和一个投票者构建的三取三 (3oo3) 模型结束,使用统计的组合来举例说明概率评估 方法和参数随机模型检查。 结果表明,在某些并非不合理的假设下,所产生的危险率对于特定的应用设置来说是可以接受的。 用于评估卷积神经网络和传统图像处理软件中错误分类的残余风险的统计方法表明,可以对安全关键型障碍物检测功能赋予高置信度,即使其实现涉及现实的机器学习不确定性。

1.2 Beyond AUROC & co. for evaluating out-of-distribution detection performance

Beyond AUROC&Co.用于评估非分布检测性能

论文地址:

https://arxiv.org/abs/2306.14658

在这里插入图片描述
尽管人们对开发分布外 (OOD) 检测方法的研究兴趣日益浓厚,但关于如何评估这些方法的讨论却相对较少。 鉴于它们与 safe® AI 的相关性,检查比较 OOD 检测方法的基础是否符合实际需求非常重要。 在这项工作中,我们仔细研究了评估 OOD 检测的首选指标,并对将 OOD 检测专门减少为二元分类任务而不考虑检测阈值的方法提出了质疑。 我们说明了当前指标(AUROC 及其朋友)的局限性,并提出了一个新指标 - 阈值曲线下面积 (AUTC),它明确惩罚 ID 和 OOD 样本之间的不良分离。

1.3 Video object detection for privacy-preserving patient monitoring in intensive care

用于重症监护中隐私保护患者监护的视频对象检测

论文地址:

https://arxiv.org/abs/2306.14620

在这里插入图片描述
重症监护病房的患者监护虽然有生物传感器的辅助,但仍需要工作人员的持续监督。 为了减轻工作人员的负担,建立了IT基础设施来记录监测数据并开发临床决策支持系统。 然而,这些系统很容易受到伪影的影响(例如,由于持续治疗而导致的肌肉运动),而这些伪影通常与真实的和潜在危险的信号无法区分。 视频记录可以促进使用对象检测(OD)方法对生物信号进行可靠分类,以找到不需要的伪影的来源。 由于隐私限制,只能存储模糊视频,这严重削弱了使用标准 OD 方法检测临床相关事件(例如干预或患者状态变化)的可能性。 因此,由于模糊镜头的信息内容减少,需要新的方法来利用各种可用信息,同时可以在普通医院的 IT 基础设施中轻松实施。 在本文中,我们提出了一种利用视频帧时间连续中的信息的新方法。 为了使用符合给定硬件限制的现成目标检测器有效实现,我们重新调整图像颜色通道的用途以考虑时间一致性,从而提高目标类的检测率。 我们的方法比标准 YOLOv5 基线模型高出 +1.7% [email protected],同时在我们专有数据集上的训练速度也快了十倍以上。 我们的结论是,这种方法在初步实验中已显示出有效性,并且在未来具有更通用的视频 OD 的潜力。

1.4 Optimizing Kernel-Target Alignment for cloud detection in multispectral satellite images

多光谱卫星图像云检测的核-目标优化配准方法

论文地址:

https://arxiv.org/abs/2306.14515

在这里插入图片描述
最近提出了核目标对齐(TA)的优化作为减少量子分类器中硬件资源数量的一种方法。 它允许将高表达性和昂贵的电路替换为中等大小、面向任务的电路。 在这项工作中,我们提出了一个简单的玩具模型来研究内核-目标对齐的优化景观。 我们发现,对于参数不足的电路,优化景观要么具有许多局部极值,要么变得平坦且具有狭窄的全局极值。 我们发现全局极值峰的宽度与引入模型的数据量相关。 本次实验研究是利用多光谱卫星数据进行的,我们针对的是云检测任务,这是遥感中最基本、最重要的图像分析任务之一。

1.5 Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection

用于弱监督视频异常检测的学习提示增强型上下文特征

论文地址:

https://arxiv.org/abs/2306.14451

在这里插入图片描述
由于训练阶段缺乏帧级注释,弱监督下的视频异常检测具有挑战性。 之前的工作采用图卷积网络或自注意力机制来建模时间关系,以及基于多实例学习(MIL)的分类损失来学习判别特征。 然而,它们中的大多数利用多分支分别捕获本地和全局依赖关系,导致参数和计算成本增加。 此外,基于 MIL 的损失的二值化约束仅确保粗粒度的类间可分离性,忽略异常类内的细粒度的可区分性。 在本文中,我们提出了一种弱监督的异常检测框架,强调有效的上下文建模和增强的语义辨别力。 为此,我们首先构建一个时间上下文聚合(TCA)模块,通过重用相似度矩阵和自适应融合来捕获完整的上下文信息。 此外,我们提出了一种提示增强学习(PEL)模块,该模块利用基于知识的提示将语义先验纳入模型中,旨在增强上下文特征的判别能力,同时确保异常子类之间的可分离性。 此外,我们在测试阶段引入了分数平滑(SS)模块,以抑制个体偏差并减少误报。 大量的实验证明了我们方法的各个组成部分的有效性,该方法在三个具有挑战性的基准上以更少的参数和计算量实现了具有竞争力的性能:UCF-犯罪、XD-暴力和上海科技大学数据集。 一些异常子类的检测精度也有了很大的提高。

1.6 Hyp-OW: Exploiting Hierarchical Structure Learning with Hyperbolic Distance Enhances Open World Object Detection

Hyp-OW:利用双曲距离的层次结构学习增强开放世界目标检测

论文地址:

https://arxiv.org/abs/2306.14291

在这里插入图片描述
开放世界对象检测 (OWOD) 是一项具有挑战性且现实的任务,超出了标准对象检测任务的范围。 它涉及检测已知和未知物体,同时将学到的知识整合到未来的任务中。 然而,“未知”的程度根据上下文的不同而有很大差异。 例如,一棵树通常被认为是自动驾驶场景中背景的一部分,但它在家庭环境中可能很重要。 我们认为这种外部或上下文信息应该已经嵌入到已知的类中。 换句话说,待发现的已知项和未知项之间应该存在语义或潜在结构关系。 受这一观察的启发,我们提出了 Hyp-OW,一种通过超类正则化器学习和建模已知项目的层次表示的方法。 利用这种学习到的表示,我们可以使用基于相似距离的重新标记模块有效地检测未知对象。 对基准数据集的大量实验证明了 Hyp-OW 在已知和未知检测方面实现改进的有效性(最多 6 分)。 这些发现在我们新设计的基准中尤其明显,其中已知和未知对象之间存在强大的层次结构。

1.7 HOKEM: Human and Object Keypoint-based Extension Module for Human-Object Interaction Detection

HOKEM:基于人和对象关键点的人-物交互检测扩展模块

论文地址:

https://arxiv.org/abs/2306.14260

在这里插入图片描述
用于捕获人与物体之间关系的人与物体交互(HOI)检测是图像语义理解中的一项重要任务。 当使用图卷积网络(GCN)处理从图像中提取的人和物体关键点来检测 HOI 时,无论物体类型如何,提取适当的物体关键点并设计一个能够准确捕获关键点之间空间关系的 GCN 至关重要。 本文提出了基于人体和物体关键点的扩展模块(HOKEM)作为一种易于使用的扩展模块,以提高传统检测模型的准确性。 所提出的对象关键点提取方法简单但准确地表示各种对象的形状。 此外,提出的人-物体自适应 GCN(HO-AGCN)引入了自适应图优化和注意力机制,可以准确捕获关键点之间的空间关系。 使用 HOI 数据集 V-COCO 进行的实验表明,HOKEM 大幅提高了基于外观的模型的准确性。

1.8 A Web-based Mpox Skin Lesion Detection System Using State-of-the-art Deep Learning Models Considering Racial Diversity

基于最新深度学习模型的基于种族多样性的MPOX皮肤病变检测系统

论文地址:

https://arxiv.org/abs/2306.14169

在这里插入图片描述
最近爆发的“Mpox”(以前称为“猴痘”)已成为一个重大的公共卫生问题,并已蔓延到全球 110 多个国家。 早期临床诊断MPOX的挑战部分是由于它与其他类型皮疹的相似性。 事实证明,在无法立即进行基于聚合酶链式反应 (PCR) 的诊断的情况下,计算机辅助筛查工具非常有价值。 深度学习方法在学习复杂的数据表示方面非常强大,但其功效很大程度上取决于足够的训练数据。 为了应对这一挑战,我们推出了“Mpox 皮肤病变数据集版本 2.0 (MSLD v2.0)”,作为先前发布的可公开访问的数据集的后续版本,该数据集是包含 mpox 病变图像的首批数据集之一。 该数据集包含mpox患者和其他五种非mpox类别(水痘、麻疹、手足口病、牛痘和健康)患者的图像。 我们对几种最先进的深度学习模型(包括 VGG16、ResNet50、DenseNet121、MobileNetV2、EfficientNetB3、InceptionV3 和 Xception)的性能进行了基准测试,以对 MPOX 和其他传染性皮肤病进行分类。 为了减少种族偏见的影响,我们利用颜色空间数据增强方法来增加训练期间的肤色变异性。 此外,通过利用从 HAM10000 数据集(大量色素皮肤病变图像的广泛集合)生成的预训练权重实现的迁移学习,我们实现了 83.59±2.11% 的最佳总体准确度。 最后,将开发的模型合并到原型网络应用程序中,以分析用户上传的皮肤图像并确定受试者是否为疑似 MPOX 患者。

1.9 A Gated Cross-domain Collaborative Network for Underwater Object Detection

一种用于水下目标检测的门控跨域协作网络

论文地址:

https://arxiv.org/abs/2306.14141

在这里插入图片描述
水下物体检测(UOD)在水产养殖和海洋环境保护中发挥着重要作用。 考虑到水下环境中低对比度和弱光条件带来的挑战,人们提出了几种水下图像增强(UIE)方法来提高水下图像的质量。 然而,仅使用增强图像并不能提高 UOD 的性能,因为它可能不可避免地删除或改变水下物体的关键图案和细节。 相比之下,我们认为探索两个领域的互补信息对 UOD 是有益的。 原始图像保留了场景的自然特征和物体的纹理信息,而增强图像则提高了水下物体的可见度。 基于这个角度,我们提出了门控跨域协作网络(GCC-Net)来解决水下环境中可见性差和对比度低的挑战,该网络由三个专用组件组成。 首先,采用实时UIE方法生成增强图像,可以提高低对比度区域中物体的可见度。 其次,引入跨域特征交互模块,以促进原始图像特征和增强图像特征之间的交互和挖掘互补信息。 第三,为了防止不可靠生成结果的污染,提出了门控特征融合模块来自适应控制跨域信息的融合率。 我们的方法从跨域信息交互和融合的角度提出了一种新的UOD范式。 实验结果表明,所提出的 GCC-Net 在四个水下数据集上实现了最先进的性能。

1.10 Object Detection based on the Collection of Geometric Evidence

基于几何证据收集的目标检测

论文地址:

https://arxiv.org/abs/2306.14120

在这里插入图片描述
人造物体通常具有非常稳定的形状特征,这是几何学中稳定、持久的属性。 它们可以为物体识别提供证据。 形状特征比外观特征、颜色特征、灰度特征或梯度特征更稳定、更容易区分。 基于形状特征的物体识别的难点在于,物体可能在颜色、光照、大小、位置、姿势和背景干扰等方面有所不同,目前还无法预测所有可能的情况。 物体和条件的多样性使得基于几何特征的物体识别非常具有挑战性。 本文提出了一种基于形状模板的方法,通过对图像边缘片段的几何证据进行选择、收集和组合判别,从背景中准确找出目标物体,并能够识别图像的语义属性。 目标对象的每条线段。 本质上,该方法涉及解决全局最优组合优化问题。 虽然全局最优组合优化问题的复杂度看起来非常高,但不需要定义复杂的特征向量,也不需要任何昂贵的训练过程。 它具有很好的泛化能力和环境适应性,比其他方法有更扎实的认知心理学基础。 几何证据的收集过程简单、通用,具有广阔的实际应用前景。 实验结果证明,该方法在响应环境变化、不变性识别、精确定位物体几何形状、搜索效率和高效计算等方面具有巨大优势。 这种尝试有助于理解物体识别过程中某些类型的通用处理。

1.11 The Second-place Solution for CVPR VISION 23 Challenge Track 1 – Data Effificient Defect Detection

CVPR Vision23挑战赛第一轨的第二名解决方案–数据高效缺陷检测

论文地址:

https://arxiv.org/abs/2306.14116

在这里插入图片描述
数据高效缺陷检测的视觉挑战赛道 1 要求参赛者在数据缺乏的环境中对 14 个工业检测数据集进行实例分割。 本报告介绍了 Aoi-overfifitting-Team 团队针对本次挑战的技术细节。 我们的方法重点关注训练样本有限的场景下缺陷掩模分割质量的关键问题。 基于混合任务级联(HTC)实例分割算法,我们通过受 CBNetv2 启发的复合连接来连接 Transformer 主干(Swin-B),以增强基线结果。 此外,我们提出了两种模型集成方法来进一步增强分割效果:一种将语义分割纳入实例分割,另一种采用多实例分割融合算法。 最后,使用多尺度训练和测试时间增强(TTA),我们在数据效率缺陷的测试集上实现了超过 48.49% 的平均 [email protected]:0.95 和 66.71% 的平均 [email protected]:0.95 检测挑战。

1.12 Semi-supervised Object Detection: A Survey on Recent Research and Progress

半监督目标检测:研究现状与进展

论文地址:

https://arxiv.org/abs/2306.14106

在这里插入图片描述
近年来,深度学习技术在目标检测领域已经成熟应用,大多数算法趋向于监督学习。 然而,大量的标签数据需要高昂的人力资源成本,带来效率低下和局限性。 半监督目标检测(SSOD)因其较高的研究价值和实用性而受到越来越多的关注。 它旨在通过使用少量标记数据和大量未标记数据来学习信息。 在本文中,我们从五个方面对 SSOD 方法进行了全面且最新的调查。 我们首先简单介绍一下数据增强的几种方法。 然后,我们将主流的半监督策略分为伪标签、一致正则化、基于图和基于迁移学习的方法,并介绍了一些具有挑战性的环境中的方法。 我们进一步介绍了广泛使用的损失函数,然后概述了常见的基准数据集并比较了不同代表性方法之间的准确性。 最后,我们总结了本文并提出了一些未来有希望的研究方向。 我们的调查旨在为该领域的新研究人员和从业者以及更高级的读者提供对过去几年开发的主要方法的深入了解。

1.13 A Flyweight CNN with Adaptive Decoder for Schistosoma mansoni Egg Detection

一种带自适应译码的FlyWeight CNN检测曼氏血吸虫卵

论文地址:

https://arxiv.org/abs/2306.14840

在这里插入图片描述
曼氏血吸虫病是七十多个国家的地方性寄生虫病,其诊断通常通过目视计数粪便样本显微镜图像中的寄生虫卵来进行。 最先进的 (SOTA) 对象检测算法基于重量级神经网络,不适合在实验室常规中进行自动化诊断。 我们通过提出一种蝇量级卷积神经网络 (CNN) 来规避这个问题,它的重量比 SOTA 目标检测器轻数千倍。 我们方法中的内核是从用户在极少数训练图像上绘制的涂鸦指示的注意区域中逐层学习的。 代表性的内核被直观地识别和选择,以提高性能并降低计算成本。 另一项创新是单层自适应解码器,其卷积权重是动态为每个图像自动定义的。 实验表明,根据五项指标,我们的 CNN 可以优于三个 SOTA 基线,也适合实验室例程中的 CPU 执行,每个可用线程每秒处理大约四个图像。

1.14 DualAttNet: Synergistic Fusion of Image-level and Fine-Grained Disease Attention for Multi-Label Lesion Detection in Chest X-rays

DualAttNet:图像水平和细粒度疾病关注度的协同融合用于胸部X光多标记病变检测

论文地址:

https://arxiv.org/abs/2306.13813

在这里插入图片描述
胸部X光检查是最常用于检测病变的放射学检查。 深度学习的最新进展在各种胸部疾病检测任务中取得了令人鼓舞的结果。 特别是,具有特征金字塔网络的架构具有识别不同大小目标的能力。 然而,由于视觉上的高度相似性,此类网络很难聚焦于胸部 X 射线中的病变区域。 在本文中,我们提出了一种用于胸片中多标签病变检测的双重注意监督模块,名为 DualAttNet。 它基于图像级注意块和细粒度疾病注意算法有效地融合了全局和局部病变分类信息。 二元交叉熵损失函数用于计算图像级别的注意力图和地面实况之间的差异。 利用生成的梯度流来细化金字塔表示并突出显示与病变相关的特征。 我们在 VinDr-CXR、ChestX-ray8 和 COVID-19 数据集上评估了所提出的模型。 实验结果表明,在不同的检测架构下,DualAttNet 的 mAP 超出基线 0.6% 至 2.7%,AP50 超出基线 1.4% 至 4.7%。

1.15 Toward Automated Detection of Microbleeds with Anatomical Scale Localization: A Complete Clinical Diagnosis Support Using Deep Learning

走向解剖尺度定位的微出血自动检测:使用深度学习的完整临床诊断支持

论文地址:

https://arxiv.org/abs/2306.13020

在这里插入图片描述
脑微出血(CMB)是脑组织中少量血液制品的慢性沉积,根据其解剖位置,与各种脑血管疾病有明确的关系,包括认知能力下降、脑出血和脑梗塞。 然而,由于 CMB 稀疏且微小的结构特性,手动检测 CMB 是一个耗时且容易出错的过程。 CMB 的检测通常受到许多 CMB 模拟物的影响,这些模拟物会导致高假阳性率 (FPR),例如钙化和软脑膜血管。 本文提出了一种新颖的 3D 深度学习框架,该框架不仅可以检测 CMB,还可以告知它们在大脑中的解剖位置(即脑叶、深部和幕下区域)。 对于 CMB 检测任务,我们利用 U-Net 作为区域提议网络(RPN)的骨干网络,提出了一个单一的端到端模型。 为了显着减少同一单一模型中的 FP,我们开发了一种新方案,其中包含特征融合模块(FFM)和硬样本原型学习(HSPL),其中特征融合模块(FFM)利用上下文信息检测小候选者,硬样本原型学习(HSPL)挖掘 CMB 模仿并生成称为浓度的额外损失项 使用卷积原型学习(CPL)的损失。 解剖定位任务不仅可以判断 CMB 属于哪个区域,还可以利用解剖信息从检测任务中消除一些 FP。 结果表明,所提出的利用 FFM 和 HSPL 的 RPN 优于普通 RPN,灵敏度分别为 94.66% 和 93.33%,每个受试者的平均误报数 (FPavg) 分别为 0.86 和 14.73。 此外,解剖定位任务通过将 FPavg 降低至 0.56,同时保持 94.66% 的灵敏度,进一步提高了检测性能。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131429469