文章目录

一、检测相关(11篇)

一、检测相关(11篇)

1.1 BandRe: Rethinking Band-Pass Filters for Scale-Wise Object Detection Evaluation

BandRe：基于尺度智能目标检测评估的带通滤波

https://arxiv.org/abs/2307.11748

在这里插入图片描述
对象检测器的尺度评估对于现实世界的应用是重要的。然而，现有的度量要么是粗略的，要么不够可靠。在本文中，我们提出了新的尺度上的指标，罢工之间的平衡细度和可靠性，使用三角形和梯形带通滤波器组成的滤波器组。我们在两个数据集上使用两种方法进行实验，并表明所提出的度量可以突出方法之间和数据集之间的差异。代码可在https://github.com/shinya7y/UniverseNet上获得。

1.2 Morphological Image Analysis and Feature Extraction for Reasoning with AI-based Defect Detection and Classification Models

基于AI的缺陷检测与分类模型用于推理的形态图像分析与特征提取

https://arxiv.org/abs/2307.11643

在这里插入图片描述
随着人工智能（AI）模型在工程和制造等行业的使用越来越普遍，这些模型必须在其预测背后提供透明的推理。本文提出了人工智能推理，它从图像中提取缺陷的形态特征（DefChars），并利用决策树来推理DefChar值。此后，AI推理器将可视化（即，图表）和文本解释，以提供对由基于掩蔽的缺陷检测和分类模型做出的输出的洞察。它还提供了有效的缓解策略，以增强数据预处理和整体模型性能。使用一组包含缺陷的366张图像，对AI推理器进行了测试，以解释IE Mask R-CNN模型的输出。结果证明了其在解释IE Mask R-CNN模型预测方面的有效性。总的来说，所提出的AI-Reasoner提供了一种解决方案，用于提高需要缺陷分析的工业应用中AI模型的性能。

1.3 Multi-modal Hate Speech Detection using Machine Learning

基于机器学习的多模式仇恨语音检测

https://arxiv.org/abs/2307.11519

在这里插入图片描述
随着互联网用户和媒体内容的不断增长，很难在音频和视频中追踪仇恨言论。将视频或音频转换为文本并不能准确地检测仇恨言论，因为人类有时会使用仇恨词语作为幽默或愉快的感觉，并且还使用不同的语音语调或在视频中显示不同的动作。最先进的仇恨言论检测模型大多是在单一模态上开发的。在这项研究中，多模态系统的组合方法已被提出来检测仇恨言论从视频内容中提取的特征图像，从音频，文本中提取的特征值，并使用机器学习和自然语言处理。

1.4 Redemption from Range-view for Accurate 3D Object Detection

用于精确3D目标检测的距离视角救赎

https://arxiv.org/abs/2307.11482

在这里插入图片描述
用于3D对象检测的最新方法主要依赖于点视图或鸟瞰视图表示，具有有限的探索基于距离视图的方法。距离视图的表示遭受尺度变化和表面纹理缺陷，这两个构成了显着的限制，开发相应的方法。值得注意的是，表面纹理损失问题已被所有现有的方法在很大程度上忽略，尽管其对基于距离视图的3D物体检测的准确性的显着影响。在这项研究中，我们提出了从范围视图R-CNN（R2 R-CNN）的救赎，这是一种全面探索范围视图表示的新颖而准确的方法。我们所提出的方法通过HD Meta内核，它捕获多个尺度的距离视图的几何信息解决尺度变化。此外，我们引入特征点赎回（FPR）恢复丢失的3D表面纹理信息的范围视图，和同步网格RoI池（S-网格RoI池），多尺度的方法，多个接受领域的准确框细化。我们的R2 R-CNN优于现有的基于范围视图的方法，在KITTI基准测试和Waymo开放数据集上都实现了最先进的性能。我们的研究强调了解决表面纹理损失问题的关键重要性，准确的三维物体检测在距离视图为基础的方法。守则将公开提供。

1.5 SA-BEV: Generating Semantic-Aware Bird’s-Eye-View Feature for Multi-view 3D Object Detection

SA-BEV：用于多视角三维目标检测的语义感知鸟视特征生成

https://arxiv.org/abs/2307.11477

在这里插入图片描述
最近，纯基于摄像头的鸟瞰（BEV）感知为经济的自动驾驶提供了可行的解决方案。然而，现有的基于BEV的多视图3D检测器通常将所有图像特征转换为BEV特征，而没有考虑大比例的背景信息可能淹没对象信息的问题。在本文中，我们提出了语义感知BEV池（SA-BEVPool），它可以过滤掉背景信息，根据图像特征的语义分割和转换图像特征到语义感知BEV功能。因此，我们提出了BEV-Paste，一种有效的数据增强策略，与语义感知的BEV特征紧密匹配。此外，我们设计了一个多尺度跨任务（MSCT）头，它结合了特定任务和跨任务的信息，以预测深度分布和语义分割更准确，进一步提高语义感知BEV特征的质量。最后，我们将上述模块集成到一个新的多视图3D目标检测框架，即SA-BEV。在nuScenes上的实验表明，SA-BEV实现了最先进的性能。代码已在https://github.com/mengtan00/SA-BEV.git上提供。

1.6 Attention Consistency Refined Masked Frequency Forgery Representation for Generalizing Face Forgery Detection

注意力一致性改进掩蔽频率伪装表示法推广人脸伪装检测

https://arxiv.org/abs/2307.11438

在这里插入图片描述
由于深度图像生成技术的成功发展，视觉数据伪造检测将在社会和经济安全中发挥更重要的作用。现有的伪造检测方法遭受不令人满意的泛化能力，以确定在看不见的域的真实性。在本文中，我们提出了一个新的注意一致性精化掩蔽频率伪造表示模型的广义人脸伪造检测算法（ACMF）。大多数伪造技术总是引入高频感知线索，这使得区分来源真实性变得容易，但难以推广到看不见的伪影类型。掩蔽频率伪造表示模块被设计成通过随机丢弃高频信息来探索鲁棒伪造线索。此外，我们发现，伪造注意力地图的不一致性，通过检测网络可能会影响的推广。因此，伪造注意一致性的引入，以迫使检测器集中在相似的注意区域，以更好的泛化能力。在几个公开的人脸伪造数据集（FaceForensic++、DFD、Celeb-DF和WDF数据集）上的实验结果表明，与现有方法相比，该方法具有更好的性能。

1.7 A Video-based Detector for Suspicious Activity in Examination with OpenPose

一种基于视频的OpenPose考试可疑行为检测器

https://arxiv.org/abs/2307.11413

在这里插入图片描述
考试是学习过程中至关重要的一部分，学术机构投入大量资源，通过防止学生或辅导员作弊来维护其诚信。然而，作弊在考试机构中变得猖獗，损害了他们的诚信。传统的依靠监考人员来监督每个学生的方法是不切实际的，也是无效的。为了解决这个问题，需要持续记录考试会话以监视学生的可疑活动。然而，这些录音往往太长，监考人员无法有效分析，疲劳可能会导致他们错过重要的细节。为了扩大覆盖范围，监考人员可以使用固定的头顶或可穿戴的摄像头。本文介绍了一个框架，使用自动化来分析视频和检测可疑活动，在考试期间有效地和有效地。我们利用OpenPose框架和卷积神经网络（CNN）来识别学生在考试期间交换对象。该检测系统对于防止作弊和促进学术诚信，公平和机构的优质教育至关重要。

1.8 Deep Directly-Trained Spiking Neural Networks for Object Detection

深度直接训练的尖峰神经网络用于目标检测

https://arxiv.org/abs/2307.11411

在这里插入图片描述
尖峰神经网络（SNN）是大脑启发的能量高效模型，其在时空动态中编码信息。最近，直接训练的深度SNN在以很少的时间步长实现分类任务的高性能方面取得了巨大成功。然而，如何设计一个直接训练的SNN用于目标检测的回归任务仍然是一个具有挑战性的问题。为了解决这个问题，我们提出了EMS-YOLO，这是一种用于对象检测的新型直接训练的SNN框架，这是第一次尝试用替代梯度训练深度SNN进行对象检测，而不是ANN-SNN转换策略。具体而言，我们设计了一个全尖峰残差块，EMS-ResNet，它可以有效地扩展直接训练的SNN的深度，低功耗。此外，我们从理论上分析和证明EMS-ResNet可以避免梯度消失或爆炸。结果表明，我们的方法优于国家的最先进的ANN-SNN转换方法（至少500个时间步长），在非常少的时间步长（只有4个时间步长）。它表明，我们的模型可以达到相当的性能，神经网络相同的架构，而消耗5.83倍的能量的基于帧的COCO数据集和基于事件的Gen 1数据集。

1.9 ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection

ParGanda：使合成行人成为目标检测的现实

https://arxiv.org/abs/2307.11360

在这里插入图片描述
目标检测是计算机视觉应用的关键技术，但它往往需要大量的注释数据来实现体面的结果。此外，特别是对于行人检测，所收集的数据可能包含一些个人身份信息（PII），这在许多国家是高度受限的。这种标签密集和隐私有关的任务最近导致了越来越多的兴趣训练检测模型，使用合成生成的行人数据集与照片逼真的视频游戏引擎收集。该引擎能够生成无限量的数据，并具有精确和一致的注释，这为现实世界的应用带来了巨大的收益。然而，使用合成数据进行训练引入了合成域到实域的偏移，从而使最终性能恶化。为了缩小真实数据和合成数据之间的差距，我们建议使用生成对抗网络（GAN），它执行参数化的未配对图像到图像的转换，以生成更逼真的图像。使用GAN的主要好处是其对几何变化的低级别变化的固有偏好，这意味着即使在执行域转换之后，给定合成图像的注释也保持准确，从而消除了对标记真实数据的需要。我们使用MOTSynth数据集进行训练，并使用MOT17和MOT20检测数据集进行测试，对所提出的方法进行了广泛的实验，实验结果证明了该方法的有效性。我们的方法不仅产生视觉上合理的样本，而且不需要任何标签的真实域，从而使其适用于各种下游任务。

1.10 Heuristic Hyperparameter Choice for Image Anomaly Detection

用于图像异常检测的启发式超参数选择

https://arxiv.org/abs/2307.11197

在这里插入图片描述
图像中的异常检测（AD）是一个基本的计算机视觉问题，它通过深度学习神经网络来识别显著偏离正态的图像。从预训练模型中提取的深度特征已被证明是基于多元高斯分布分析的AD所必需的。然而，由于模型通常是在大型数据集上进行预训练的，例如ImageNet，因此它们可能会为AD产生大量冗余特征，这会增加计算成本并降低性能。我们的目标是做的降维的否定主成分分析（NPCA）的这些特征。因此，我们提出了一些启发式的选择NPCA算法的超参数，以得到尽可能少的特征成分，同时保证良好的性能。

1.11 Screening Mammography Breast Cancer Detection

乳房钼靶摄影筛查乳腺癌

https://arxiv.org/abs/2307.11274

在这里插入图片描述
乳腺癌是癌症相关死亡的主要原因，但目前的计划是昂贵的，容易出现假阳性，导致不必要的后续行动和病人的焦虑。本文提出了一种乳腺癌自动检测的解决方案，以提高筛查方案的效率和准确性。针对大约20，000名女性患者的放射学乳腺图像的RSNA数据集测试了不同的方法，并在各种方法中产生了0.56的平均验证病例pF1评分。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（7 月 24 日论文合集）