文章目录

一、Automotive Object Detection via Learning Sparse Events by Temporal Dynamics of Spiking Neurons

一、Automotive Object Detection via Learning Sparse Events by Temporal Dynamics of Spiking Neurons

基于脉冲神经元时间动力学学习稀疏事件的汽车目标检测

https://arxiv.org/abs/2307.12900

在这里插入图片描述
基于事件的传感器具有高时间分辨率（1us）和动态范围（120dB），有可能部署在车辆和无人机等高速平台上。然而，事件的高度稀疏和波动性质对基于人工神经网络（ANN）的常规对象检测技术提出了挑战。相比之下，尖峰神经网络（SNN）由于其固有的时间动态性而非常适合表示基于事件的数据。特别是，我们证明了膜电位动态可以调节网络活动的波动事件和加强稀疏输入的功能。此外，尖峰触发的自适应阈值可以稳定训练，这进一步提高了网络性能。在此基础上，我们开发了一个有效的尖峰特征金字塔网络基于事件的对象检测。我们提出的SNN优于以前的SNN和具有注意力机制的复杂ANN，在Gen1基准数据集上实现了47.7%的平均精度（map50）。这一结果显著超过了之前最好的SNN 9.7%，并证明了SNN在基于事件的视觉方面的潜力。我们的模型有一个简洁的架构，同时保持高精度和低得多的计算成本作为稀疏计算的结果。我们的代码将公开。

1.2 Exposing the Troublemakers in Described Object Detection

在描述对象检测中揭露麻烦制造者

https://arxiv.org/abs/2307.12813

在这里插入图片描述
基于语言描述的对象检测是一个流行的任务，包括开放词汇对象检测（OVD）和引用表达式理解（REC）。在本文中，我们提出了一个更实际的设置称为描述对象检测（DOD）的扩展类别名称灵活的语言表达OVD和克服的限制REC只接地预先存在的对象。我们建立了DOD任务的研究基础，通过构建描述检测数据集（ $D^3$ ），具有灵活的语言表达和注释所有描述对象没有遗漏。通过评估以前的SOTA方法，我们发现一些麻烦制造者，失败的当前REC，OVD和双功能方法。REC方法与置信度得分、拒绝负面实例和多目标场景作斗争，而OVD方法面临着长而复杂的描述的约束。最近的双功能方法也不工作，以及国防部由于其单独的训练程序和推理策略REC和OVD任务。基于上述发现，我们提出了一个基线，通过重建训练数据并引入二进制分类子任务，大大改善了REC方法，优于现有方法。数据和代码可在https://github.com/shikras/d-cube获得。

1.3 AMAE: Adaptation of Pre-Trained Masked Autoencoder for Dual-Distribution Anomaly Detection in Chest X-Rays

AMAE：用于胸部X线片双分布异常检测的预训练掩蔽自动编码器

https://arxiv.org/abs/2307.12721

在这里插入图片描述
医学图像（如胸部X射线照片）中的无监督异常检测正在成为人们关注的焦点，因为它减轻了异常数据的劳动密集型和昂贵的专家注释的稀缺性。然而，几乎所有现有的方法都被制定为一个类的分类训练，只从正常类的表示，并丢弃潜在的显着部分的未标记的数据。本文着重于一个更实际的设置，双分布异常检测胸部X射线，使用整个训练数据，包括正常和未标记的图像。受现代自监督Vision Transformer模型的启发，使用部分图像输入进行训练以重建丢失的图像区域-我们提出了AMAE，这是一种用于适应预训练的掩蔽自动编码器（MAE）的两阶段算法。从MAE初始化开始，AMAE首先仅从正常训练图像创建合成异常，并在冻结的Transformer特征上训练轻量级分类器。随后，我们提出了一个适应策略，利用未标记的图像包含异常。的适应方案是通过分配伪标签的未标记的图像，并使用两个单独的MAE为基础的模块来模拟伪标记的图像的规范和异常分布。所提出的自适应策略的有效性进行了评估，在未标记的训练集与不同的异常率。AMAE与竞争的自监督和双分布异常检测方法相比，具有一致的性能增益，在三个公共胸部X射线基准上设置了新的最先进水平：RSNA、NIH-CXR和VinDr-CXR。

1.4 Damage Vision Mining Opportunity for Imbalanced Anomaly Detection

基于损伤视觉的不平衡异常检测机会挖掘

https://arxiv.org/abs/2307.12676

在这里插入图片描述

在过去的十年中，以前的平衡数据集已被用于推进工业应用中的分类，对象检测，语义分割和异常检测算法。具体而言，对于基于状态的维护，自动化目视检查对于确保高质量至关重要。恶化预测试图优化预测性维护和主动修复的精细决策过程。在民用基础设施和生活环境中，由于不可见事件的罕见性和高质量状态的改善操作，损坏数据挖掘无法避免数据不平衡的问题。对于目视检查，从混凝土和钢构件表面获得的劣化等级偶尔不平衡。从大量的相关调查中，我们总结出不平衡数据问题可以分为四种类型; 1）目标和标签有价值的缺失范围，2）多数-少数类不平衡，3）空间不平衡的前景-背景，4）像素不平衡的长尾类。自2015年以来，已经有许多使用深度学习方法的不平衡研究，包括回归，图像分类，对象检测，语义分割。然而，不平衡数据的异常检测还不是众所周知的。在这项研究中，我们强调了一类异常检测应用，无论是否是异常类，并在不平衡的视觉数据集上展示了清晰的例子：木材、混凝土老化和灾害损坏。我们提供了关键的损害视觉挖掘优势的结果，假设更有效的范围内的阳性率，更高的准确性增益的异常检测应用。最后，损伤学习方法的适用性，局限性和未来的工作。

1.5 PG-RCNN: Semantic Surface Point Generation for 3D Object Detection

PG-RCNN：面向三维目标检测的语义表面点生成

https://arxiv.org/abs/2307.12637

在这里插入图片描述
基于LiDAR的3D物体检测的主要挑战之一是，由于长距离和遮挡，传感器通常无法捕获关于物体的完整空间信息。具有点云完成方法的两阶段检测器通过使用预先训练的网络向感兴趣区域（ROI）添加更多点来解决这个问题。然而，这些方法为所有区域提议生成对象的密集点云，假设对象总是存在于ROI中。这也会导致不正确的建议不加选择地生成点。受此启发，我们提出了点生成R-CNN（PG-RCNN），这是一种新型的端到端检测器，可以生成前景对象的语义表面点，以进行准确检测。我们的方法使用一个联合训练的ROI点生成模块来处理ROI的上下文信息，并估计前景对象的完整形状和位移。对于每个生成的点，PG-RCNN分配指示估计的前景概率的语义特征。大量的实验表明，我们的方法生成的点云提供了丰富的几何和语义信息，用于改进误报和未对齐的建议。PG-RCNN在KITTI基准测试中实现了具有竞争力的性能，其参数明显少于最先进的模型。该代码可在https://github.com/quotation2520/PG-RCNN上获得。

1.6 MFMAN-YOLO: A Method for Detecting Pole-like Obstacles in Complex Environment

MFMAN-YOLO：一种复杂环境下的杆状障碍物检测方法

https://arxiv.org/abs/2307.12548

在这里插入图片描述
在现实世界的交通中，道路和天气条件存在各种不确定性和复杂性。针对复杂环境下杆类障碍物特征信息容易丢失，导致检测精度和实时性不高的问题，提出一种多尺度混合注意机制检测算法。首先，引入最优传输函数Monge-Kantorovich（MK），不仅解决了多个预测帧与最优匹配的重叠问题，而且可以正则化MK函数，防止模型过拟合;然后根据优化后的高效多尺度特征金字塔分别对不同尺度上的特征进行上采样。最后，基于混合注意机制，抑制无关的复杂环境背景信息，聚焦柱状障碍物的特征信息，增强复杂环境下多尺度特征空间信道信息的提取。同时，本文在各种复杂环境下进行了真实的道路试验。实验结果表明，该方法的检测准确率、召回率和平均准确率分别为94.7%、93.1%和97.4%，检测帧率为400 f/s。该研究方法能够实时、准确地检测复杂道路环境中的杆状障碍物，进一步推动了自动驾驶领域的创新与进步。

1.7 Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model

从视频异常检测走向视频异常检索：新的基准和模型

https://arxiv.org/abs/2307.12545

在这里插入图片描述
视频异常检测（VAD）因其潜在的应用前景而受到越来越多的关注，目前的主要任务集中在帧级的在线异常检测上，大致可以理解为二值或多事件分类。然而，在复杂的异常事件和单个标签之间建立关系的这种设置，例如，“故意破坏”是肤浅的，因为单一的标签不足以描述异常事件。在现实中，用户倾向于搜索特定的视频，而不是一系列近似的视频。因此，利用细节描述来检索异常事件是实际的和积极的，但很少有研究关注这一点。在此背景下，我们提出了一种称为视频异常检索（VAR）的新任务，其目的是通过跨模态来实用地检索相关的异常视频，例如，语言描述和同步音频。与当前的视频检索不同，其中视频被假定为在短持续时间内在时间上被修剪得很好，VAR被设计为检索可能与给定查询部分相关的长的未修剪视频。为了实现这一目标，我们提出了两个大规模的VAR基准，UCFCrime-AR和XDViolence-AR，构建在普遍的异常数据集之上。同时，我们设计了一个模型称为异常主导的对齐网络（ALAN）的VAR。在ALAN中，我们提出了一个异常主导的采样，专注于长的未修剪的视频中的关键部分。然后，我们引入了一个有效的借口任务，以提高视频文本细粒度表示之间的语义关联。此外，我们利用两个互补的比对，以进一步匹配跨模态的内容。两个基准测试的实验结果揭示了VAR任务的挑战，也证明了我们定制的方法的优势。

1.8 SelFormaly: Towards Task-Agnostic Unified Anomaly Detection

SelForMaly：面向与任务无关的统一异常检测

https://arxiv.org/abs/2307.12540

在这里插入图片描述
视觉异常检测的核心思想是从正常图像中学习正常性，但以前的工作是专门针对某些任务开发的，导致各种任务之间的碎片化：缺陷检测、语义异常检测、多类异常检测和异常聚类。这种一个任务一个模型的方法是资源密集型的，并且随着任务数量的增加而产生高维护成本。本文介绍了SelFormaly，一个通用的和强大的异常检测框架。我们强调我们的现成的方法的必要性，指出一个次优的问题，在以前的在线基于编码器的方法的波动性能。此外，我们质疑文献中使用ConvNets的有效性，并确认自监督ViTs适用于统一的异常检测。我们引入了后补丁掩蔽，并发现了顶部k比率特征匹配的新作用，以实现统一和强大的异常检测。后补片掩蔽消除了可能阻碍以目标为中心的检测与场景布局的表示无关的区域。顶部k比率特征匹配统一了各种异常水平和任务。最后，SelFormaly在所有上述任务的各种数据集上实现了最先进的结果。

1.9 Towards Generalizable Deepfake Detection by Primary Region Regularization

基于初等区域正则化的泛化深伪检测

https://arxiv.org/abs/2307.12534

在这里插入图片描述
现有的deepfake检测方法在推广到看不见的伪造和操纵方法方面已经达到了瓶颈。基于观察到deepfake检测器表现出对输入中特定主区域过拟合的偏好，本文从一种新的正则化角度增强了泛化能力。这可以简单地通过经由主区域去除来增强图像来实现，从而防止检测器过度依赖于数据偏置。我们的方法包括两个阶段，即静态本地化的主要区域地图，以及动态开发的主要区域掩模。所提出的方法可以无缝集成到不同的骨干，而不影响其推理效率。我们在三个广泛使用的deepfake数据集上进行了广泛的实验- DFDC，DF-1.0和Celeb-DF，具有五个主干。我们的方法表明，在不同的骨干网的平均性能提高了6%，并与几个国家的最先进的基线具有竞争力。

1.10 Augmented Box Replay: Overcoming Foreground Shift for Incremental Object Detection

增强框重放：克服增量式目标检测的前景漂移

https://arxiv.org/abs/2307.12427

在这里插入图片描述
在增量式学习中，将先前任务中存储的样本与当前任务样本一起回放是解决灾难性遗忘的最有效方法之一。然而，与增量分类不同，图像重放尚未成功地应用于增量对象检测（IOD）。在本文中，我们确定了被忽视的问题前景转移的主要原因。前景移位仅在重放先前任务的图像时发生，并且是指它们的背景可能包含当前任务的前景对象的事实。为了克服这个问题，开发了一种新颖且高效的增强框重放（ABR）方法，该方法仅存储和重放前景对象，从而规避前景移位问题。此外，我们提出了一个创新的注意RoI蒸馏损失，使用空间的关注感兴趣的区域（RoI）功能，以限制当前模型集中在旧模型的最重要的信息。ABR显着减少遗忘以前的类，同时保持在当前类的高可塑性。此外，与标准图像重放相比，它大大降低了存储要求。Pascal-VOC和COCO数据集上的综合实验支持我们模型的最新性能。

1.11 Towards Generic and Controllable Attacks Against Object Detection

面向目标检测的通用性和可控性攻击

https://arxiv.org/abs/2307.12342

在这里插入图片描述
针对对象检测器（OD）的现有对抗性攻击遭受两个固有的限制。首先，OD具有复杂的元结构设计，因此大多数针对OD的高级攻击集中在攻击特定的检测器-内在结构上，这使得它们很难在其他检测器上工作，并促使我们设计针对OD的通用攻击。其次，大多数针对OD的作品通过将图像级攻击从分类推广到检测来制作对抗示例（AE），这在语义上无意义的区域（例如，背景）并导致寻求针对OD的可控攻击的紧急情况。为此，我们提出了一个通用的白盒攻击，LGP（局部扰动自适应全局攻击），盲的主流对象检测器可控扰动。对于检测器不可知的攻击，LGP跟踪高质量的建议，并同时优化三个异构的损失。通过这种方式，我们可以用OD的一部分输出来欺骗OD的关键组件，而不受特定结构的限制。关于可控性，我们建立了一个对象明智的约束，利用前景-背景分离自适应诱导附件的扰动前景。实验表明，该算法在MS-COCO和DOTA数据集上成功地攻击了16个最先进的目标检测器，具有良好的不可感知性和可移植性。代码在https://github.com/liguopeng0923/LGP.git公开发布。

1.12 Rapid detection of soil carbonates by means of NIR spectroscopy, deep learning methods and phase quantification by powder Xray diffraction

近红外光谱、深度学习和粉末X射线衍射物相定量快速检测土壤碳酸盐

https://arxiv.org/abs/2307.12341

在这里插入图片描述
土壤近红外光谱吸收/反射光谱库用于提高农业生产和土壤特性的分析，这是农业生态平衡和环境可持续性的关键前提。特别是碳酸盐，代表了一种土壤性质，其在气候变化期间甚至受到环境条件的温和变化的影响，更不用说极端变化了。在这项研究中，我们提出了一种快速有效的方法来预测土壤中碳酸盐含量的FT近红外反射光谱和使用深度学习方法。我们使用了多种机器学习方法，例如：1）MLP回归器和2）CNN，并在两个NIR光谱库的组合数据集上将它们与其他传统ML算法（诸如PLSR、Cubist和SVM）的性能进行比较：KSSL（USDA），一个全国范围内收集的土壤样品反射光谱数据集，和LUCAS TopSoil（欧洲土壤库），其中包含来自欧盟各地的土壤样品吸收光谱，并使用它们来预测从未见过的土壤样品中的碳酸盐含量。在KSSL和TopSoil光谱库中的土壤样品在visNIR的光谱区域中获得，但在这项研究中，只有NIR光谱区域被利用。通过X射线衍射的碳酸盐的定量与容量法和MLP预测是一致的。我们的工作有助于在以下情况下快速预测土壤样品中的碳酸盐含量：1）没有容量法可用，2）只有NIR光谱吸光度数据可用。到目前为止，据我们所知，还没有其他研究提出了一个在如此广泛的数据集上训练的预测模型，在看不见的数据上获得了如此有希望的结果，这无疑支持了深度学习模型为土壤碳酸盐含量提供了出色的预测工具的观点。

1.13 RANSAC-NN: Unsupervised Image Outlier Detection using RANSAC

RANSAC-NN：基于RANSAC的无监督图像孤立点检测

https://arxiv.org/abs/2307.12301

在这里插入图片描述
图像离群点检测（OD）对于确保计算机视觉任务中使用的图像数据集的质量和准确性至关重要。然而，大多数OD算法尚未针对图像数据。因此，将这种算法应用于图像的结果通常是次优的。在这项工作中，我们提出了RANSAC-NN，一种新的无监督OD算法专门为图像设计。通过在基于RANSAC的方法中比较图像，我们的算法自动预测每个图像的离群值得分，而无需额外的训练或标签信息。我们评估RANSAC-NN对国家的最先进的OD算法在15个不同的数据集。在没有任何超参数调整的情况下，RANSAC-NN在几乎每个数据集类别中的表现都优于其他算法。此外，我们提供了一个详细的分析，以了解每个RANSAC-NN组件，我们展示了其潜在的应用在图像错误标记检测。RANSAC-NN的代码见https://github.com/mxtsai/ransac-nn.

1.14 Explainable Depression Detection via Head Motion Patterns

基于头部运动模式的可解释抑郁症检测

https://arxiv.org/abs/2307.12241

在这里插入图片描述
虽然抑郁症已经通过多模态非语言行为线索进行了研究，但头部运动行为作为生物标志物并没有受到太多关注。本研究通过采用两种不同的方法，并采用不同的特征，证明了基本头部运动单元（称为kinemes）用于抑郁症检测的实用性：（a）从对应于抑郁症患者和健康对照的头部运动数据中发现运动素，以及（b）仅从健康对照学习运动素模式，并计算从患者和对照类别的重建误差导出的统计数据。采用机器学习方法，我们评估了BlackDog和AVEC 2013数据集的抑郁症分类性能。我们的研究结果表明：（1）头部运动模式是用于检测抑郁症状的有效生物标志物，以及（2）对于这两个类别可以观察到与先前发现一致的解释性运动素模式。总的来说，我们实现了峰值F1分数0.79和0.82，分别超过BlackDog和AVEC 2013的二进制分类在情节{薄切片}，和一个峰值F1 0.72的视频AVEC 2013。

1.15 EchoGLAD: Hierarchical Graph Neural Networks for Left Ventricle Landmark Detection on Echocardiograms

EchoGLAD：用于超声心动图左心室标志物检测的层次图神经网络

https://arxiv.org/abs/2307.12229

在这里插入图片描述
心脏的左心室腔室的功能评估需要检测四个界标位置并测量左心室的内部尺寸和周围肌肉的近似质量。利用机器学习自动化该任务的关键挑战是临床标签的稀疏性，即，在高维图像中，只有少数界标像素被注释，导致许多现有的工作严重依赖于各向同性标签平滑。然而，这样的标签平滑策略忽略了图像的解剖信息并且引起一些偏差。为了解决这一挑战，我们引入了一个基于超声心动图，分层图神经网络（GNN）的左心室标志检测（EchoGLAD）。我们的主要贡献是：1）用于经由GNN的多分辨率地标检测的分层图表示学习框架; 2）使用多级损失在不同粒度级别上诱导分级监督。我们评估我们的模型在一个公共和一个私人数据集下的分布（ID）和分布（OOD）设置。对于ID设置，我们在两个数据集上实现了1.46 mm和1.86 mm的最新平均绝对误差（MAE）。我们的模型也显示出更好的OOD泛化比以前的作品与4.3毫米的测试MAE。

1.16 AI on the Road: A Comprehensive Analysis of Traffic Accidents and Accident Detection System in Smart Cities

AI在路上：智慧城市交通事故与事故检测系统综合分析

https://arxiv.org/abs/2307.12128

在这里插入图片描述
事故检测和交通分析是智能城市和自动交通系统的关键组成部分，可以降低事故频率和严重程度，并改善整体交通管理。本文提出了一个全面的分析，在美国不同地区的交通事故使用的数据从国家公路交通安全管理局（NHTSA）碰撞报告抽样系统（CRSS）。为了解决事故检测和交通分析的挑战，本文提出了一个框架，使用交通监控摄像头和动作识别系统来检测和响应交通事故自发。将拟议的框架与紧急服务相结合，将利用交通摄像头和机器学习算法的力量，为应对交通事故和减少人为错误创建一个有效的解决方案。先进的智能技术，如智能城市中拟议的事故检测系统，将改善交通管理和交通事故的严重程度。总的来说，这项研究提供了宝贵的见解，在美国的交通事故，并提出了一个切实可行的解决方案，以提高交通系统的安全性和效率。

1.17 Spatial Self-Distillation for Object Detection with Inaccurate Bounding Boxes

基于空间自蒸馏的非精确包围盒目标检测

https://arxiv.org/abs/2307.12101

在这里插入图片描述
由于昂贵的高质量注释数据或偶尔不可避免的低注释质量（例如微小对象），通过不准确的边界框监督进行对象检测已经引起了广泛的兴趣。以往的工作通常利用多实例学习（MIL），这高度依赖于类别信息，选择和细化一个低质量的框。这些方法在没有探索空间信息的情况下遭受对象漂移、组预测和部分支配问题。在本文中，我们启发式地提出了一个\textbf{基于空间自蒸馏的对象检测器（SSD-Det）}来挖掘空间信息，以自蒸馏的方式改进不准确的框。SSD-Det利用空间位置自蒸馏模块来利用空间信息和交互结构来结合空间信息和类别信息，从而构建高质量的提案包。为了进一步改进选择过程，在SSD-Det中引入了空间身份自蒸馏模块，以获得空间置信度，从而帮助选择最佳建议。在MS-COCO和VOC数据集上的实验验证了该方法的有效性，并达到了最先进的性能。该代码可在https://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Det上获得。

1.18 A novel integrated method of detection-grasping for specific object based on the box coordinate matching

一种基于盒子坐标匹配的特定目标检测抓取一体化新方法

https://arxiv.org/abs/2307.11783

在这里插入图片描述
为了更好地照顾老年人和残疾人，服务机器人必须有一个有效的目标检测和抓取估计的融合方法。然而，有限的研究已经观察到的对象检测和抓取估计的组合。针对这一技术难点，提出了一种基于盒坐标匹配的特定目标检测-抓取一体化方法。首先，对SOLOv 2实例分割模型进行改进，增加了通道注意力模块（CAM）和空间注意力模块（SAM）。然后，在生成式残差卷积神经网络（GR-CNN）模型中加入无空间金字塔池（ASPP）和CAM来优化抓取估计。在此基础上，提出了一种基于盒坐标匹配的检测-抓取一体化算法（DG-BCM），以获得目标检测和抓取估计的融合模型。为了验证，分别进行了目标检测和抓取估计实验，验证了改进模型的优越性。此外，在仿真平台上实现了对几个特定物体的抓取任务，验证了本文提出的DG-BCM算法的可行性和有效性。

1.19 ES2Net: An Efficient Spectral-Spatial Network for Hyperspectral Image Change Detection

ES2Net：一种高效的高光谱图像变化检测光谱-空间网络

https://arxiv.org/abs/2307.12327

在这里插入图片描述
高光谱图像变化检测（HSI-CD）的目的是识别的差异，在双时间HSI。为了减轻光谱冗余并提高变化特征的区分度，一些方法引入了频带选择技术来选择有利于CD的频带。然而，这些方法受到无法使用基于深度学习的特征提取器进行端到端训练的限制，并且缺乏考虑频带之间复杂的非线性关系。在本文中，我们提出了一个端到端的高效频谱空间变化检测网络（ES 2Net）来解决这些问题。具体来说，我们设计了一个可学习的波段选择模块，自动选择有利于CD的波段。它可以与特征提取网络联合优化，并捕获频带之间的复杂非线性关系。此外，考虑到大的空间特征分布不同的波段之间的差异，我们设计了集群的空间注意力机制，分配一个空间的注意力因子，以单独提高每个波段的特征区分度。在三个广泛使用的HSI-CD数据集上的实验表明了该方法的有效性和优越性。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（7 月 25 日论文合集）