文章目录

一、检测相关(11篇)

一、检测相关(11篇)

1.1 Benchmarking Anomaly Detection System on various Jetson Edge Devices

Jetson边缘设备的基准异常检测系统

https://arxiv.org/abs/2307.16834

在这里插入图片描述
从监控视频中捕获异常事件可以提高公民的安全和福祉。 EdgeAI（基于边缘计算的人工智能）的应用满足了严格的安全时延要求。在本文中，我们借助边缘计算技术，将称为鲁棒时间特征幅度学习（RTFM）的弱监督视频异常检测应用于监控摄像头的端到端犯罪现场异常检测系统。该系统直接在多个 Jetson 边缘设备上进行测试，并结合 NVIDIA 的 TensorRT 作为软件开发套件来增强系统性能。还提供了使用 Docker 技术在各种 Jetson Edge 设备上部署基于 AI 的系统的经验。与 UCF-Crime 和 UIT VNAnomaly 等可用数据集上的其他最先进 (SOTA) 算法相比，异常检测模型产生了具有竞争力的结果。该方法系统在 Jetson 边缘设备上达到了 47.56 帧每秒 (FPS) 的推理速度，总共仅使用 3.11 GB RAM。我们还发现了很有前景的 Jetson 设备，其 AI 系统比之前版本的 Jetson 设备性能提高了 15%，同时能耗降低了 50%。

1.2 High-Performance Fine Defect Detection in Artificial Leather Using Dual Feature Pool Object Detection

基于双特征池目标检测的高性能人造皮革细微缺陷检测

https://arxiv.org/abs/2307.16751

在这里插入图片描述
本研究重点分析了YOLOv5模型的结构问题。针对人造革细微缺陷的特点，设计了DFP、IFF、AMP、EOS四种创新结构。这些进步导致了一种名为YOLOD的高性能人造革精细缺陷检测模型的提出。 YOLOD 在人造皮革缺陷数据集上表现出了出色的性能，与 YOLOv5 相比，AP_50 的性能提升了 11.7% - 13.5%，错误检测率显着降低了 5.2% - 7.2%。此外，YOLOD在通用MS-COCO数据集上也表现出了不俗的表现，AP较YOLOv5提升了0.4% ~ 2.6%，AP_S较YOLOv5提升了2.5%~4.1%。这些结果证明了YOLOD在人造皮革缺陷检测和一般物体检测任务中的优越性，使其成为现实世界应用的高效且有效的模型。

1.3 Towards General Visual-Linguistic Face Forgery Detection

面向一般视觉语言的人脸伪造检测

https://arxiv.org/abs/2307.16545

在这里插入图片描述
Deepfakes 是一种现实的面部操纵，可能对安全、隐私和信任构成严重威胁。现有方法大多将此任务视为二元分类，即使用数字标签或掩模信号来训练检测模型。我们认为这种监督缺乏语义信息和可解释性。为了解决这个问题，在本文中，我们提出了一种名为视觉语言人脸伪造检测（VLFFD）的新范式，它使用细粒度的句子级提示作为注释。由于当前的 Deepfakes 数据集中不提供文本注释，VLFFD 首先通过 Prompt Forgery Image Generator (PFIG) 生成混合伪造图像以及相应的细粒度提示。然后，将细粒度的混合数据和粗粒度的原始数据通过粗细协同训练框架（C2F）进行联合训练，使模型获得更多的泛化性和可解释性。实验表明，所提出的方法在几个具有挑战性的基准上改进了现有的检测模型。

1.4 Towards Head Computed Tomography Image Reconstruction Standardization with Deep Learning Assisted Automatic Detection

基于深度学习辅助自动检测的头部CT图像重建标准化

https://arxiv.org/abs/2307.16440

在这里插入图片描述
头部计算机断层扫描 (CT) 图像的三维 (3D) 重建阐明了组织结构复杂的空间关系，从而有助于准确诊断。尽管如此，由于技术人员的定位不当、患者的身体限制或 CT 扫描仪倾斜角度限制，确保最佳的头部 CT 扫描无偏差在临床环境中具有挑战性。手动格式化和重建不仅引入了主观性，而且还造成时间和劳动力资源的紧张。为了解决这些问题，我们提出了一种高效的自动头部 CT 图像 3D 重建方法，提高了准确性和可重复性，并减少了人工干预。我们的方法采用基于深度学习的对象检测算法，识别和评估眼眶线标志，以在重建之前自动重新格式化图像。鉴于缺乏头部 CT 图像背景下的目标检测算法的现有评估，我们从理论和实验角度比较了十种方法。通过探索它们的精度、效率和鲁棒性，我们选出轻量级 YOLOv8 作为最适合我们任务的算法，其 mAP 为 92.91%，并且对类别不平衡具有令人印象深刻的鲁棒性。我们对标准化重建结果的定性评估证明了我们方法的临床实用性和有效性。

1.5 Detecting Out-of-distribution Objects Using Neuron Activation Patterns

利用神经元激活模式检测散布物体

扫描二维码关注公众号，回复： 16060035 查看本文章

https://arxiv.org/abs/2307.16433

在这里插入图片描述
物体检测对于现代机器人应用中使用的许多感知算法至关重要。不幸的是，现有模型都倾向于为分布外 (OOD) 样本分配高置信度分数。尽管 OOD 检测近年来已被计算机视觉 (CV) 社区广泛研究，但大多数提出的解决方案仅适用于图像识别任务。现实世界的应用（例如自动驾驶汽车的感知）面临着比分类复杂得多的挑战。在我们的工作中，我们关注对象检测的流行领域，引入神经元激活模式用于对象检测（NAPTRON）中的分布外样本检测。进行的实验表明，我们的方法优于最先进的方法，且无需影响分布内 (ID) 性能。通过评估两种不同的 OOD 场景和三种类型的对象检测器中的方法，我们创建了最大的 OOD 对象检测开源基准。

1.6 RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor Detection

RCS-YOLO：一种用于脑肿瘤检测的快速高精度目标检测器

https://arxiv.org/abs/2307.16412

在这里插入图片描述
凭借速度和准确性之间的出色平衡，尖端的 YOLO 框架已成为最有效的目标检测算法之一。然而，在脑肿瘤检测中很少研究使用 YOLO 网络的性能。我们提出了一种基于通道洗牌（RCS-YOLO）的具有重新参数化卷积的新型YOLO架构。我们提出了 RCS 和 RCS 的一次性聚合（RCS-OSA），它将特征级联和计算效率联系起来，以提取更丰富的信息并减少时间消耗。在脑肿瘤数据集Br35H上的实验结果表明，所提出的模型在速度和准确性上超越了YOLOv6、YOLOv7和YOLOv8。值得注意的是，与YOLOv7相比，RCS-YOLO的精度提高了2.6%，推理速度提高了60%，每秒检测到114.8张图像（FPS）。我们提出的 RCS-YOLO 在脑肿瘤检测任务上实现了最先进的性能。

1.7 Implementing Edge Based Object Detection For Microplastic Debris

实现基于边缘的微塑性碎屑目标检测

https://arxiv.org/abs/2307.16289

在这里插入图片描述
塑料已成为我们日常活动中不可或缺的一部分，但由于其不可生物降解的性质和较便宜的生产价格而成为问题的根源。伴随这些问题，缓解和应对处置后遗症或缺乏适当处置导致废物集中在一定地点并扰乱动植物生态系统的挑战随之而来。随着垃圾填埋场垃圾场中废物的积累以及自然水体中更危险的废物的积累，塑料碎片水平持续上升，因此必须迅速采取行动来堵塞或停止这种流动。虽然手动分类操作和检测可以提供解决方案，但可以使用与机器人附件相连接的高度先进的计算机图像来增强它们，以清除废物。本报告重点关注的主要应用是备受讨论的计算机视觉和开放视觉，它们因其对互联网的轻度依赖和在偏远地区中继信息的能力而获得新颖性。这些应用程序可用于创建基于边缘的移动设备，这些设备可以解决海洋和河流中日益严重的塑料碎片问题，只需很少的连接性，并且通过合理的定时维护仍然可以提供相同的结果。该项目的主要发现涵盖了经过测试和部署的各种方法来检测图像中的废物，并将它们与不同的废物类型进行比较。该项目已经能够生成可行的模型，可以使用增强的 CNN 方法对采样图像进行实时检测。该项目的后期部分还更好地解释了达到最佳精度所需的必要预处理步骤，包括将废物检测研究扩展到更大环境的最佳硬件。

1.8 Uncertainty-Encoded Multi-Modal Fusion for Robust Object Detection in Autonomous Driving

基于不确定性编码的多模式融合在自动驾驶目标检测中的应用

https://arxiv.org/abs/2307.16121

在这里插入图片描述
多模态融合在自动驾驶感知的目标检测方面已显示出初步有希望的结果。然而，许多现有的融合方案没有考虑每个融合输入的质量，并且可能会受到一个或多个传感器上的不利条件的影响。虽然预测不确定性已被应用于表征运行时的单模态目标检测性能，但将不确定性纳入多模态融合中仍然缺乏有效的解决方案，这主要是由于不确定性的跨模态不可比性和对各种不利条件的不同敏感性。为了填补这一空白，本文提出了不确定性编码专家混合（UMoE），它将单模态不确定性明确地纳入激光雷达相机融合中。 UMoE 使用单独的专家网络来处理每个传感器的检测结果以及编码的不确定性。然后，通过门网络分析专家网络的输出以确定融合权重。所提出的 UMoE 模块可以集成到任何提案融合管道中。评估表明，在极端天气、对抗性和致盲攻击场景下，与最先进的提议级多模态目标检测器相比，UMoE 最多实现了 10.67%、3.17% 和 5.40% 的性能增益。

1.9 Separate Scene Text Detector for Unseen Scripts is Not All You Need

未见脚本的单独场景文本检测器并不是您需要的全部

https://arxiv.org/abs/2307.15991

在这里插入图片描述
野外文本检测是一个众所周知的问题，在处理多个脚本时变得更具挑战性。在过去的十年中，一些脚本得到了研究界的关注并取得了良好的检测性能。然而，许多脚本用于训练基于深度学习的场景文本检测器的资源不足。这就提出了一个关键问题：是否需要对新脚本进行单独培训？这是场景文本检测领域中一个尚未探索的查询。本文承认这个问题，并提出了一种检测训练期间不存在的脚本的解决方案。在这项工作中，进行了分析以理解跨脚本文本检测，即在一个文本上进行训练并在另一个上进行测试。我们发现文本注释的相同性质（字级/行级）对于更好的跨脚本文本检测至关重要。脚本之间文本注释的不同性质会降低跨脚本文本检测性能。此外，对于未见过的脚本检测，所提出的解决方案利用向量嵌入来映射与脚本类别相对应的文本的笔划信息。所提出的方法在零样本设置下使用著名的多语言场景文本数据集进行了验证。结果显示了所提出的方法在自然图像中看不见的脚本检测方面的潜力。

1.10 Detecting diabetic retinopathy severity through fundus images using an ensemble of classifiers

使用分类器集合通过眼底图像检测糖尿病视网膜病变的严重程度

https://arxiv.org/abs/2307.16622

在这里插入图片描述
糖尿病视网膜病变是一种影响糖尿病患者的眼部疾病。这是糖尿病的常见并发症，会影响眼睛并导致视力丧失。诊断糖尿病视网膜病变的一种方法是检查眼底。眼科医生检查眼睛的后部，包括视网膜、视神经和供应视网膜的血管。在糖尿病视网膜病变的情况下，视网膜血管恶化，可能导致出血、肿胀和其他影响视力的变化。我们提出了一种检测糖尿病严重程度的方法。首先，对可用数据应用一组数据预处理：自适应均衡、颜色归一化、高斯滤波器、视神经盘和血管的去除。其次，我们对相关标记进行图像分割并从眼底图像中提取特征。第三，我们应用一组分类器并评估系统的信任度。

1.11 Deep Learning and Computer Vision for Glaucoma Detection: A Review

深度学习和计算机视觉在青光眼检测中的应用

https://arxiv.org/abs/2307.16528

在这里插入图片描述
青光眼是全世界不可逆性失明的主要原因，并且由于依赖主观评估而带来重大的诊断挑战。然而，计算机视觉和深度学习的最新进展已经证明了自动化评估的潜力。在本文中，我们调查了最近使用眼底、光学相干断层扫描和视野图像进行基于人工智能的青光眼诊断的研究，特别强调基于深度学习的方法。我们提供更新的分类法，将方法组织成架构范例，并包含可用源代码的链接，以增强方法的可重复性。通过对广泛使用的公共数据集进行严格的基准测试，我们揭示了普遍性、不确定性估计和多模态集成方面的性能差距。此外，我们的调查整理了关键数据集，同时强调了规模、标签不一致和偏差等局限性。我们概述了开放的研究挑战，并详细说明了未来研究的有希望的方向。这项调查预计对寻求将进步转化为实践的人工智能研究人员和旨在利用最新人工智能结果改善临床工作流程和诊断的眼科医生都有用。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 1 日论文合集）