【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 23 日论文合集)

一、检测相关(4篇)

1.1 Targeted collapse regularized autoencoder for anomaly detection: black hole at the center

用于异常检测的定向塌陷正则化自动编码器:中心黑洞

论文地址:

https://arxiv.org/abs/2306.12627

在这里插入图片描述
自动编码器已被广泛用于最近的异常检测技术的发展。其应用的前提是基于以下概念:在正常训练数据上训练自动编码器之后,异常输入将表现出显著的重建误差。因此,这使得能够清楚地区分正常和异常样本。然而,在实践中,可以观察到,自动编码器可以概括超出正常类,并实现一个小的重建误差的一些异常样本。为了提高性能,各种技术提出了额外的组件和更复杂的训练程序。在这项工作中,我们提出了一个非常简单的替代方案:代替添加神经网络组件、所涉及的计算和繁琐的训练,我们用调节潜在空间中的表示的范数的计算上轻的项来补充重建损失。我们的方法的简单性最大限度地减少了对新应用程序的超参数调整和定制的要求,再加上其允许的数据模态约束,增强了在广泛的应用程序中成功采用的潜力。我们在各种可视化和表格基准测试的方法,并证明该技术相匹配,并经常优于替代品。我们还提供了理论分析和数值模拟,以帮助展示在训练过程中展开的底层过程,以及它如何有助于异常检测。这减轻了基于自动编码器的异常检测算法的黑盒性质,并为进一步研究优势、失败案例和潜在的新方向提供了途径。

1.2 RXFOOD: Plug-in RGB-X Fusion for Object of Interest Detection

RXFOOD:用于感兴趣目标检测的插件RGB-X融合

论文地址:

https://arxiv.org/abs/2306.12621

在这里插入图片描述
不同传感器(近红外、深度等)的出现是对传统RGB摄像机有限应用场景的一种弥补。RGB-X任务依赖于RGB输入和另一种类型的数据输入来解决特定问题,已经成为多媒体领域的热门研究课题。双分支RGB-X深度神经网络的一个关键部分是如何跨模态融合信息。考虑到RGB-X网络内部的大量信息,先前的工作通常应用朴素融合(例如,平均或最大融合)或仅关注相同尺度的特征融合。而在本文中,我们提出了一种新的方法,称为RXFOOD的融合功能跨不同尺度的同一模态分支,并从不同的模态分支同时在一个统一的注意力机制。能量交换模块是为每个特征图的能量矩阵的交互而设计的,能量矩阵反映了特征图中不同位置和不同通道之间的相互关系。RXFOOD方法可以很容易地作为插件模块并入任何双分支编解码器网络,并帮助原始骨干网络更好地专注于重要位置和通道进行感兴趣对象检测。在RGB-NIR显著性目标检测、RGB-D显著性目标检测和RGBFrequency图像篡改检测上的实验结果表明了该算法的有效性。

1.3 Toward Automated Detection of Microbleeds with Anatomical Scale Localization: A Complete Clinical Diagnosis Support Using Deep Learning

走向解剖尺度定位的微出血自动检测:使用深度学习的完整临床诊断支持

论文地址:

https://arxiv.org/abs/2306.13020

在这里插入图片描述
脑微出血(Cerebral Microbleeds,CMB)是脑组织中少量血液产物的慢性沉积,根据其解剖位置,与各种脑血管疾病有明确的关系,包括认知功能减退、脑出血和脑梗死。然而,手动检测的CMB是一个耗时和容易出错的过程,因为它们的稀疏和微小的结构特性。CMB的检测通常受到许多CMB模拟物的存在的影响,这些CMB模拟物导致高假阳性率(FPR),例如钙化和软脑膜血管。本文提出了一种新的3D深度学习框架,该框架不仅检测CMB,而且还告知它们在大脑中的解剖位置(即,肺叶、深部和幕下区域)。对于CMB检测任务,我们提出了一个单一的端到端模型,通过利用U-Net作为骨干与区域建议网络(RPN)。为了显着减少相同的单一模型内的FP,我们开发了一个新的计划,包含特征融合模块(FFM),检测小候选人利用上下文信息和硬样本原型学习(HSPL),挖掘CMB模拟和生成额外的损失项称为浓度损失使用卷积原型学习(CPL)。解剖定位任务不仅告诉CMB属于哪个区域,而且通过利用解剖信息从检测任务中消除一些FP。结果表明,建议的RPN,利用FFM和HSPL优于香草RPN,并实现了94.66%的灵敏度相比。93.33%,每例受试者的平均假阳性数(FPavg)为0.86,而14.73.此外,解剖定位任务通过将FPavg降低到0.56同时保持94.66%的灵敏度来进一步提高检测性能。

1.4 Comparative Analysis of Segment Anything Model and U-Net for Breast Tumor Detection in Ultrasound and Mammography Images

超声和钼靶图像中乳腺肿瘤检测的分段任意模型和U-网的比较分析

论文地址:

https://arxiv.org/abs/2306.12510

在这里插入图片描述
在这项研究中,主要目的是开发一种算法,能够识别和描绘肿瘤区域的乳腺超声(BUS)和乳腺X线摄影图像。该技术采用了两种先进的深度学习架构,即U-Net和预训练的SAM,用于肿瘤分割。U-Net模型专为医学图像分割而设计,并利用其深度卷积神经网络框架从输入图像中提取有意义的特征。另一方面,预训练的SAM架构结合了捕获空间依赖性并生成分割结果的机制。在包含BUS和乳腺摄影图像中的注释肿瘤区域的不同数据集上进行评价,涵盖良性和恶性肿瘤。该数据集能够全面评估算法在不同肿瘤类型中的性能。结果表明,U-Net模型在准确识别和分割BUS和乳腺摄影图像中的肿瘤区域方面优于预训练的SAM架构。U-Net在涉及不规则形状、边界模糊和高肿瘤异质性的挑战性病例中表现出优异的性能。相比之下,预先训练的SAM架构在准确识别肿瘤区域方面表现出限制,特别是对于恶性肿瘤和具有弱边界或复杂形状的对象。这些发现强调了选择适合医学图像分割的适当深度学习架构的重要性。U-Net模型展示了其作为肿瘤检测的强大而准确的工具的潜力,而预训练的SAM架构表明需要进一步改进以提高分割性能。

二、分类|识别相关(3篇)

2.1 Evading Forensic Classifiers with Attribute-Conditioned Adversarial Faces

基于属性条件的对抗性面孔规避法医分类器

论文地址:

https://arxiv.org/abs/2306.13091

在这里插入图片描述
生成模型产生高度逼真的合成人脸图像的能力已经引起了安全和伦理方面的关注。作为针对这种假面孔的第一道防线,已经开发了基于深度学习的法医分类器。虽然这些取证模型可以高精度地检测人脸图像是合成的还是真实的,但它们也容易受到对抗性攻击。虽然这种攻击可以非常成功地逃避法医分类器的检测,但它们引入了通过仔细的人类审查可以检测到的可见噪声模式。此外,这些攻击假定访问目标模型,这可能并不总是正确的。已经尝试直接扰动GANs的潜在空间,以产生可以绕过法医分类器的对抗性假面孔。在这项工作中,我们更进一步,表明有可能成功地生成具有指定属性集的对抗性假脸(例如,头发颜色、眼睛大小、种族、性别等)。为了实现这一目标,我们利用了最先进的生成模型StyleGAN与解纠缠表示,这使得一系列的修改,而不离开自然图像的流形。我们提出了一个框架来搜索StyleGAN的特征空间内的对抗性潜在代码,其中搜索可以通过文本提示或参考图像来引导。我们还提出了一种基于元学习的优化策略,以实现未知目标模型的可转移性能。大量的实验表明,所提出的方法可以产生语义操纵的对抗性假脸,这是真正的指定的属性集,并可以成功地欺骗法医人脸分类器,同时保持人类无法检测。代码:https://github.com/koushiksrivats/face_attribute_attack.

2.2 Feature Mixing for Writer Retrieval and Identification on Papyri Fragments

基于特征混合的纸质纸片作者检索与识别

https://arxiv.org/abs/2306.12939

在这里插入图片描述
本文提出了一种基于深度学习的papyri作者检索和识别方法,重点是识别与特定作者相关的片段以及与同一图像对应的片段。我们提出了一种新的神经网络架构,它结合了残余骨干与特征混合阶段,以提高检索性能,和最终的描述符来自投影层。该方法根据两个基准进行评价:PapyRow,其中我们在写入器和页面检索上实现了26.6%和24.9%的mAP,以及HisFragIR20,显示出最先进的性能(44.0%和29.3%的mAP)。此外,我们的网络具有28.7%的准确率为作家识别。此外,我们进行实验的影响,两个二进制化技术的碎片,并表明二进制化不提高性能。我们的代码和模型可供社区使用。

2.3 Revisiting Image Classifier Training for Improved Certified Robust Defense against Adversarial Patches

重温图像分类器训练以改进针对恶意补丁的认证稳健防御

论文地址:

https://arxiv.org/abs/2306.12610

在这里插入图片描述
针对图像分类器的对抗性补丁的可证明的鲁棒防御确保了对受约束的像素邻域的任何变化的正确预测。PatchCleanser arXiv:2108.09135 [cs.CV]是最先进的认证防御,它使用了双掩蔽策略来实现稳健的分类。该策略的成功很大程度上依赖于模型的不变性图像像素掩蔽。在本文中,我们仔细研究模型训练计划,以提高这种不变性。我们引入了最坏情况掩蔽的概念,而不是使用随机剪切arXiv:1708.04552v2 [cs.CV]增强,如PatchCleanser,即,选择最大化分类损失的掩蔽图像。然而,找到最坏情况的掩码需要详尽的搜索,这可能在训练期间在运行中昂贵得令人望而却步。为了解决这个问题,我们提出了一个两轮的贪婪掩蔽策略(贪婪裁剪),找到一个近似的最坏情况下的掩模位置少得多的计算。我们表明,使用我们的Greedy Cutout训练的模型在一系列数据集和架构上比PatchCleanser中的Random Cutout提高了认证的鲁棒准确性。使用ViT-B16-224模型的ImageNet上认证的稳健准确性从58.1%提高到62.3%,而在图像上任何位置应用3%的正方形补丁。

三、分割|语义相关(3篇)

3.1 Robust Semantic Segmentation: Strong Adversarial Attacks and Fast Training of Robust Models

稳健语义分割:强对抗性攻击和稳健模型的快速训练

https://arxiv.org/abs/2306.12941

在这里插入图片描述
虽然大量的工作集中在设计针对图像分类器的对抗性攻击,但只有少数方法可以攻击语义分割模型。我们发现,攻击分割模型提出了特定于任务的挑战,为此,我们提出了新的解决方案。我们的最终评估协议优于现有的方法,并表明这些可以高估模型的鲁棒性。此外,到目前为止,对抗性训练,最成功的方式获得强大的图像分类器,不能成功地应用于语义分割。我们认为,这是因为要学习的任务更具挑战性,需要显着更高的计算工作量比图像分类。作为一种补救措施,我们表明,通过利用强大的ImageNet分类器的最新进展,可以通过微调强大的骨干,以有限的计算成本训练对抗性强大的分割模型。

3.2 FlowFace++: Explicit Semantic Flow-supervised End-to-End Face Swapping

FlowFace++:显式语义流监督的端到端人脸交换

论文地址:

https://arxiv.org/abs/2306.12686

在这里插入图片描述
本文提出了一个新的人脸交换框架FlowFace++,利用显式语义流监督和端到端架构,以促进形状感知的人脸交换。具体来说,我们的工作预训练面部形状鉴别器来监督面部交换网络。鉴别器是形状感知的,并依赖于语义流引导的操作来明确地计算目标和源面部之间的形状差异,从而优化面部交换网络以生成高度逼真的结果。人脸交换网络是预先训练的人脸掩蔽自动编码器(MAE)、交叉注意融合模块和卷积解码器的堆栈。MAE提供了一个细粒度的面部图像表示空间,这是统一的目标和源面部,从而有利于最终的真实结果。交叉注意融合模块在细粒度的潜在空间中执行源到目标面部交换,同时保留目标图像的其他属性(例如,图像的特征)。表情、头部姿势、头发、背景、照明等)。最后,卷积解码器根据来自交叉注意融合模块的人脸交换潜在嵌入进一步合成交换结果。在野外人脸上进行的大量定量和定性实验表明,我们的FlowFace++明显优于最先进的技术,特别是当源面受到不均匀照明或角度偏移的阻碍时。

3.3 Curriculum Knowledge Switching for Pancreas Segmentation

胰腺分割中的课程知识转换

论文地址:

https://arxiv.org/abs/2306.12651

在这里插入图片描述
胰腺分割是具有挑战性的,由于小比例和高度可变的解剖结构。这促使我们提出了一种新的分割框架,即课程知识转换(CKS)框架,它将胰腺检测分解为三个具有不同难度的阶段:简单,困难,具有挑战性。该框架从简单的阶段切换到具有挑战性的阶段,从而逐渐学会检测胰腺。此外,在切换过程中采用动量更新参数更新机制,保证了当输入数据集发生变化时损失逐渐收敛。实验结果表明,具有CKS框架的不同神经网络骨干在NIH数据集上实现了最先进的性能,如DSC度量所测量的。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/131354163