一、检测相关(8篇)

1.1 Attending Generalizability in Course of Deep Fake Detection by Exploring Multi-task Learning

探索多任务学习在深度假冒检测过程中注意泛化

https://arxiv.org/abs/2308.13503

这项工作探索了探索多任务学习（MTL）技术的各种方法，旨在将视频分类为原始的或在交叉操作场景中操作的，以参加深度假场景中的泛化。我们在评估中使用的数据集是FaceForensics++，其中包含1000个通过四种不同技术处理的原始视频，总共有5000个视频。我们进行了广泛的实验，多任务学习和对比技术，这是很好的研究文献，其泛化的好处。可以得出结论，所提出的检测模型是相当一般化的，即，与现有技术相比，它可以准确地检测训练期间未遇到的操作方法。

1.2 Harvard Glaucoma Detection and Progression: A Multimodal Multitask Dataset and Generalization-Reinforced Semi-Supervised Learning

哈佛大学青光眼检测和进展：多模式多任务数据集和泛化强化的半监督学习

https://arxiv.org/abs/2308.13411

青光眼是全球不可逆失明的头号原因。准确的青光眼检测和进展预测的主要挑战是有限的标记患者与最先进的（SOTA）光学相干断层扫描（OCT）的3D视网膜成像数据的瓶颈。为了解决数据稀缺问题，本文提出了两种解决方案。首先，我们开发了一种新的广义强化半监督学习（SSL）模型，称为伪监督，以最佳地利用未标记的数据。与SOTA模型相比，该伪监督器优化了使用未标记样本预测伪标签的策略，以提高经验泛化能力。我们的伪监督模型进行了评估，包括青光眼检测和进展预测的两个临床任务。进展预测任务的评估是单模态和多模态。我们的伪监督模型表现出优于SOTA SSL比较模型的性能。此外，我们的模型在公开可用的LAG眼底数据集上也取得了最好的结果。其次，我们介绍了哈佛青光眼检测和进展（哈佛-GDP）数据集，这是一个多模式多任务数据集，包括来自1,000名OCT成像数据患者的数据，以及青光眼检测和进展的标签。这是具有3D OCT成像数据的最大青光眼检测数据集和公开可用的第一个青光眼进展预测数据集。详细的性别和种族分析提供，这可用于感兴趣的研究者公平学习的研究。我们发布的数据集采用了几个SOTA监督的CNN和Transformer深度学习模型进行基准测试。数据集和代码通过\url{https：//ophai.hms.harvard.edu/datasets/harvard-gdp1000}公开可用。

1.3 Burnt area extraction from high-resolution satellite images based on anomaly detection

基于异常检测的高分辨率卫星图像烧伤区域提取

https://arxiv.org/abs/2308.13367

利用卫星图像进行林火探测是遥感领域广泛研究的课题，在林火描绘和制图方面有着广泛的应用。最近，深度学习方法已经成为自动化这项任务的可扩展解决方案，特别是在没有训练数据的无监督学习领域。这在紧急情况风险监测方面尤为重要，因为在这种情况下需要快速有效的检测，通常是基于高分辨率卫星数据。在各种方法中，异常检测（AD）由于其在计算机视觉、医学成像以及遥感中的广泛应用而显得非常有潜力。在这项工作中，我们建立在矢量量化变分自动编码器（VQ-VAE），一个流行的基于重建的AD方法与离散的潜在空间的框架，进行无监督的烧伤区域提取。我们将VQ-VAE集成到一个端到端的框架中，并使用专用的植被，水和亮度指数进行密集的后处理步骤。我们的高分辨率SPOT-6/7图像进行的实验提供了有前途的结果，所提出的技术，显示其在未来的研究无人监督的烧伤面积提取的高潜力。

1.4 Unsupervised Domain Adaptation for Anatomical Landmark Detection

用于解剖标志检测的无监督区域自适应算法

https://arxiv.org/abs/2308.13286

近年来，解剖标志检测在单域数据上取得了很大的进展，通常假设训练集和测试集来自同一个域。然而，这样的假设在实践中并不总是正确的，这可能导致显着的性能下降，由于域移位。为了解决这个问题，我们提出了一个新的框架下的解剖标志检测下的无监督域自适应（UDA），其目的是将知识从标记的源域转移到未标记的目标域。该框架利用自我训练和领域对抗学习来解决适应过程中的领域差距。提出了一种自训练策略，通过动态阈值选择目标域数据的可靠地标级伪标签，使自适应更加有效。此外，领域对抗学习模块被设计为通过对抗训练学习领域不变特征来处理两个领域的不对齐数据分布。我们的头影测量和肺标志检测的实验表明，该方法的有效性，减少了大幅度的域差距，并优于其他UDA方法一致。该代码可在https://github.com/jhb86253817/UDA_Med_Landmark上获得。

1.5 Self-supervised learning for hotspot detection and isolation from thermal images

基于自监督学习的热像热点检测与分离

https://arxiv.org/abs/2308.13204

使用热成像的热点检测最近在若干工业应用中变得必不可少，例如安全应用、健康应用和设备监测应用。热点检测在工业安全中是极其重要的，其中设备可以发展异常。热点是这种异常现象的早期指标。我们提出了一种自监督学习方法，解决了热图像中的热点检测问题。自我监督学习已经显示出潜在的竞争替代，他们的监督学习同行，但他们的应用温度成像一直是有限的。这是由于缺乏多样的数据可用性、特定领域的预训练模型、标准化基准等。我们提出了一种自监督表示学习方法，然后进行微调，通过分类提高热点的检测。基于SimSiam网络的集成分类器决定图像是否包含热点。热点的检测之后是精确的热点分离。通过这样做，我们能够提供高度准确和精确的热点识别，适用于广泛的应用。我们创建了一个新的大型热图像数据集，以解决缺乏易于访问的热图像的问题。我们的实验与我们创建的数据集和公开可用的分割数据集显示了我们的热点检测方法的潜力，并能够以高精度隔离热点。我们实现了一个骰子系数为0.736，最高的相比，现有的热点识别技术。我们的实验还表明，自监督学习是监督学习的有力竞争者，为热点检测提供了有竞争力的指标，我们的方法的最高准确率为97%。

1.6 STRIDE: Street View-based Environmental Feature Detection and Pedestrian Collision Prediction

STRIDE：基于街景的环境特征检测与行人碰撞预测

https://arxiv.org/abs/2308.13183

本文介绍了一种新的基准来研究建筑环境元素对行人碰撞预测的影响和关系，旨在提高自动驾驶系统中的环境意识，以积极预防行人受伤。我们介绍了一个大规模的全景图像中的建成环境检测任务和基于检测的行人碰撞频率预测任务。我们提出了一个基线方法，将碰撞预测模块到一个国家的最先进的检测模型，同时解决这两个任务。我们的实验表明，建筑环境元素和行人碰撞频率预测的对象检测之间的显着相关性。我们的研究结果是理解建筑环境条件和行人安全之间的相互依赖关系的垫脚石。

1.7 How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection

如何评价侦查的泛化？一种全面的开放词汇检测基准

https://arxiv.org/abs/2308.13177

近年来，计算机视觉中的对象检测（OD）取得了重大进展，从闭集标签过渡到基于大规模视觉语言预训练（VLP）的开放词汇检测（OVD）。然而，目前的评估方法和数据集仅限于测试对象类型和引用表达式的泛化，这并不提供系统的，细粒度的，准确的基准OVD模型的能力。在本文中，我们提出了一个新的基准命名为OVDEval，其中包括9个子任务，并介绍了常识知识，属性理解，位置理解，对象关系理解，和更多的评价。该数据集经过精心创建，以提供挑战模型对视觉和语言输入的真正理解的硬否定。此外，我们发现了一个问题，流行的平均精度（AP）指标时，基准模型对这些细粒度的标签数据集，并提出了一个新的指标，称为非最大抑制平均精度（NMS-AP）来解决这个问题。大量的实验结果表明，现有的顶级OVD模型都失败的新任务，除了简单的对象类型，证明了该数据集的价值，在查明目前的OVD模型的弱点，并指导未来的研究。此外，建议的NMS-AP度量通过实验验证，提供一个更真实的评价OVD模型，而传统的AP度量产生欺骗性的结果。数据可在\url{https：//github.com/om-ai-lab/OVDEval}获取

1.8 CEIMVEN: An Approach of Cutting Edge Implementation of Modified Versions of EfficientNet (V1-V2) Architecture for Breast Cancer Detection and Classification from Ultrasound Images

CEIMVEN：一种改进版本的EfficientNet(V1-V2)架构的前沿实现方法，用于乳腺癌的超声图像检测和分类

https://arxiv.org/abs/2308.13356

毫无疑问，乳腺癌被认为是全球最广泛和最可怕的癌症之一。每年有数百万妇女受到影响。乳腺癌仍然是妇女死亡人数最多的主要原因。在最近的研究中，医学图像计算和处理一直在从超声图像和乳房X线照片中检测和分类乳腺癌方面发挥着重要作用，以及深度神经网络的天体触摸。在这项研究中，我们主要集中在我们的严格实施和迭代结果分析不同的尖端修改版本的EfficientNet架构，即EfficientNet-V1（b 0-b7）和EfficientNet-V2（b 0-b3）与超声图像，命名为CEIMVEN。我们在这里使用迁移学习方法来使用EfficientNet版本的预训练模型。我们激活了超参数调整程序，添加了全连接层，丢弃了前所未有的异常值，并记录了我们自定义修改的EfficientNet架构的准确性结果。我们的深度学习模型训练方法与使用感兴趣区域（ROI）技术和多种分类（良性、恶性和正常）来识别癌症影响区域有关。我们从EfficientNet-V1（b 0 - 99.15%，b1- 98.58%，b2- 98.43%，b3- 98.01%，b4- 98.86%，b5- 97.72%，b6- 97.72%，b7- 98.72%）和EfficientNet-V2（b 0 - 99.29%，b1- 99.01%，b2- 98.72%，b3- 99.43%）的修改版本中获得的近似测试准确率显示了非常光明的前景和深度学习方法在非常早期阶段从超声图像中成功检测和分类乳腺癌的强大潜力。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 28 日论文合集）

文章目录