文章目录

一、检测相关(28篇)

一、检测相关(28篇)

1.1 Robustness and Generalizability of Deepfake Detection: A Study with Diffusion Models

基于扩散模型的深伪检测的稳健性和泛化能力研究

https://arxiv.org/abs/2309.02218

deepfake图像的兴起，尤其是知名人物的图像，对真实信息的传播构成了严重威胁。为了解决这个问题，我们对deepfake是如何产生以及如何识别它们进行了彻底的调查。我们研究的基石是一个丰富的人造名人脸集合，名为DeepFakeFace（DFF）。我们使用先进的扩散模型制作了DFF数据集，并通过在线平台与社区分享。这些数据可以作为训练和测试用于发现deepfake的算法的强大基础。我们对DFF数据集进行了全面审查，并提出了两种评估方法来衡量deepfake识别工具的强度和适应性。第一种方法测试在一种类型的假图像上训练的算法是否可以识别由其他方法产生的图像。第二个评估算法对不完美图像的性能，如那些模糊，低质量或压缩的图像。考虑到deepfake方法和图像变化的不同结果，我们的研究结果强调需要更好的deepfake检测器。我们的DFF数据集和测试旨在促进开发更有效的工具来对抗deepfakes。

1.2 Domain Adaptation for Satellite-Borne Hyperspectral Cloud Detection

星载高光谱云探测的域自适应算法

https://arxiv.org/abs/2309.02150

星载机器学习硬件加速器的出现使得能够使用卷积神经网络（CNN）等机器学习技术来对有效载荷数据进行机载处理。一个值得注意的例子是使用CNN来检测在地球观测（EO）任务上捕获的高光谱数据中云的存在，从而仅将晴空数据下行以节省带宽。然而，在部署之前，使用新传感器的新任务将没有足够的代表性数据集来训练CNN模型，而仅根据先前任务的数据训练的模型在部署以处理新任务的数据时将表现不佳。这种表现不佳源于域间隙，即，在先前和未来的任务中由不同传感器生成的数据的基本分布的差异。在本文中，我们解决的域间隙问题的背景下，车载高光谱云检测。我们的主要贡献在于制定一个具体的EO任务的动机新的域适应任务，开发一种新的算法，带宽效率的监督域适应，并展示测试时间适应算法的空间部署的神经网络加速器。我们的贡献使得能够调用最小的数据传输（例如，仅为ResNet50中权重的1%）来实现域自适应，从而允许在卫星上部署和更新更复杂的CNN模型，而不会受到域间隙和带宽限制的阻碍。

1.3 An Adaptive Spatial-Temporal Local Feature Difference Method for Infrared Small-moving Target Detection

一种自适应时空局部特征差分红外弱小目标检测方法

https://arxiv.org/abs/2309.02054

红外图像序列中运动小目标的精确检测是一个重大的挑战。为了解决这个问题，我们提出了一种新的方法称为时空局部特征差（STLFD）与自适应背景抑制（ABS）。我们的方法利用滤波器在空间和时间域和执行像素级ABS的输出，以增强目标和背景之间的对比度。所提出的方法包括三个步骤。首先，我们获得三个时间帧图像的基础上，当前帧图像和提取两个特征图使用设计的空间域和时间域的过滤器。接下来，我们融合空间域和时间域的信息，以产生时空特征图，并使用我们的像素级ABS模块抑制噪声。最后，我们通过应用阈值来获得分割的二值图。我们的实验结果表明，所提出的方法优于现有的国家的最先进的红外小运动目标检测方法。

1.4 Diffusion-based 3D Object Detection with Random Boxes

基于扩散的随机盒三维目标检测

https://arxiv.org/abs/2309.02049

3D物体检测是实现自动驾驶的重要任务。现有的基于锚点的检测方法依赖于锚点的经验启发式设置，这使得算法缺乏优雅性。近年来，我们目睹了几种生成模型的兴起，其中扩散模型在学习两个分布的转换方面显示出巨大的潜力。我们提出的Diff3Det迁移的扩散模型，以建议生成的3D对象检测，通过考虑作为生成目标的检测框。在训练期间，对象框从地面真值框扩散到高斯分布，并且解码器学习反转该噪声过程。在推理阶段，模型逐步将一组随机框细化为预测结果。我们提供了详细的实验KITTI基准和实现有前途的性能相比，经典的基于锚的3D检测方法。

1.5 SyntheWorld: A Large-Scale Synthetic Dataset for Land Cover Mapping and Building Change Detection

SyntheWorld：用于土地覆盖制图和建筑物变化检测的大规模合成数据集

https://arxiv.org/abs/2309.01907

合成数据集以其成本效益而闻名，在推进计算机视觉任务和技术方面发挥着关键作用。然而，当涉及到遥感图像处理，合成数据集的创建变得具有挑战性，由于更大规模和更多样化的3D模型的需求。与真实遥感数据集相关的困难，包括有限的数据采集和高昂的注释成本，加剧了这种复杂性，这放大了对高质量合成替代品的需求。为了解决这个问题，我们提出了SyntheWorld，一个在质量，多样性和规模方面无与伦比的合成数据集。它包括40，000幅具有亚米级像素和八类细粒度土地覆盖注释的图像，并且它还提供40，000对具有建筑物变化注释的双时图像对用于建筑物变化检测任务。我们在多个基准遥感数据集上进行实验，以验证SyntheWorld的有效性，并研究我们的合成数据产生优势的条件。我们将发布SyntheWorld，以促进遥感图像处理研究。

1.6 Prior Knowledge Guided Network for Video Anomaly Detection

用于视频异常检测的先验知识引导网络

https://arxiv.org/abs/2309.01682

视频异常检测（VAD）涉及检测视频中的异常事件，在智能视频监控中呈现出重要而复杂的任务。现有的研究往往只集中在从有限的正常数据获取的功能，忽视了潜在的先验知识存在于广泛的自然图像数据集。为了解决这个问题，我们提出了一个先验知识引导网络（PKG-Net）的VAD任务。首先，将自动编码器网络并入教师-学生架构中以学习两个指定的代理任务：未来帧预测和教师网络模拟，可以对未知样本提供更好的泛化能力。其次，还提出了在适当的特征块上进行知识蒸馏，以提高模型的多尺度检测能力。此外，预测误差和师生特征不一致性相结合，更全面地评估推理样本的异常得分。三个公共基准测试的实验结果验证了我们的方法的有效性和准确性，它超过了最近的国家的最先进的。

1.7 Raw Data Is All You Need: Virtual Axle Detector with Enhanced Receptive Field

原始数据是您所需的全部：具有增强接收视野的虚拟车轴检测器

https://arxiv.org/abs/2309.01574

日益老化的基础设施的维护成本不断上升，需要创新的监测技术。本文提出了一种新的车轴检测方法，使实时应用的桥梁动态称重（BWIM）系统没有专用的车轴检测器。所提出的方法适用于虚拟车轴检测器（VAD）模型来处理原始加速度数据，这允许增加的感受野。与现有的VAD相比，本文提出的增强感受野虚拟轴探测器（VADER）将F1分数提高了73%，空间精度提高了39%，同时计算和存储成本降低了99%.当使用具有代表性的训练集和功能传感器时，VADER的F1得分为99.4%，空间误差为4.13cm。我们还介绍了一种新的感受野（RF）规则的对象大小驱动的卷积神经网络（CNN）架构的设计。基于这一规则，我们的研究结果表明，使用原始数据的模型可以比使用频谱图的模型获得更好的性能，这为将原始数据作为输入提供了一个令人信服的理由。

1.8 On the use of Mahalanobis distance for out-of-distribution detection with neural networks for medical imaging

马氏距离用于医学成像神经网络的离散性检测

https://arxiv.org/abs/2309.01488

在医学应用中实现用于临床使用的神经网络需要网络能够检测输入数据何时与训练数据显著不同，目的是防止不可靠的预测。社区已经开发了几种方法用于分布外（OOD）检测，其中基于距离的方法（如Mahalanobis距离）已显示出潜力。本文挑战了当前社区的理解，有一个最佳的层，或层的组合，应用马氏距离检测任何OOD模式的神经网络。使用合成人工制品来模拟OOD模式，本文显示了应用马氏距离的最佳层随OOD模式的类型而变化，表明没有一刀切的解决方案。本文还表明，在网络的不同深度的多个检测器分离这个OOD检测器可以提高检测不同的OOD模式的鲁棒性。这些见解在现实世界的OOD任务中得到了验证，在没有支持设备的情况下在CheXpert胸部X光片上训练模型，然后使用看不见的起搏器进行扫描（我们手动标记了50%的CheXpert用于本研究）和看不见的性行为作为OOD病例。结果为使用Mahalanobis距离进行OOD检测提供了最佳实践。手动注释的起搏器标签和项目代码可在以下网址获得：https://github.com/HarryAnthony/Mahalanobis-OOD-detection。

1.9 Defect Detection in Synthetic Fibre Ropes using Detectron2 Framework

利用Detectron2框架检测合成纤维绳中的缺陷

https://arxiv.org/abs/2309.01469

具有最新技术的纤维绳索由于其轻质和高抗拉强度而成为海上工业钢丝绳的有吸引力的替代品。同时，经常检查这些绳索对于确保整个系统的正常运行和安全至关重要。在状态监测（CM）应用中开发深度学习（DL）模型为合成纤维绳索（SFR）中的缺陷检测提供了更简单、更有效的方法。本论文研究的性能Detectron 2，一个国家的最先进的库缺陷检测和实例分割。具有Mask R-CNN架构的Detectron 2用于分割SFR中的缺陷。具有各种主干配置的Mask R-CNN已经在实验获得的数据集上进行了训练和测试，该数据集包括1，803个高维图像，其中包含SFR的七个损伤类别（分别为环高，环中，环低，压缩，核心出，磨损和正常）。通过利用Detectron 2的功能，本研究旨在开发一种自动化和高效的方法来检测SFR中的缺陷，增强检查过程，并确保纤维绳的安全性。

1.10 Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images

基于分段任意模型的HR遥感图像变化检测

https://arxiv.org/abs/2309.01429

视觉基础模型（VFM），例如分段任何模型（SAM），允许视觉内容的zero-shot或交互式分段，因此它们被快速应用于各种视觉场景。然而，由于遥感图像的特殊成像特性，直接使用遥感图像往往不能令人满意。在这项工作中，我们的目标是利用VFM强大的视觉识别能力，以提高高分辨率遥感图像（RSIs）的变化检测。我们采用的视觉编码器FastSAM，SAM的一个有效的变种，提取视觉表示在RS场景。为了适应FastSAM集中在RS场景中的一些特定的地面对象，我们提出了一个卷积适配器来聚合面向任务的变化信息。此外，为了利用SAM功能固有的语义表示，我们引入了一个任务不可知的语义学习分支模型的语义潜在的双时态RSIs。由此产生的方法，SAMCD，获得优越的精度相比，SOTA方法，并表现出样本有效的学习能力，是半监督CD方法。据我们所知，这是第一个工作，调整VFM为人力资源综合指数光盘。

1.11 SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations

SSVOD：稀疏标注的半监督视频对象检测

https://arxiv.org/abs/2309.01391

尽管用于图像对象检测的半监督学习取得了重大进展，但视频对象检测的几个关键问题尚未解决：（1）实现有监督视频对象检测的良好性能很大程度上取决于注释帧的可用性。(2)尽管在视频中具有大的帧间相关性，但是为每个视频收集大量帧的注释是昂贵的、耗时的并且通常是冗余的。(3)现有的静态图像的半监督技术很难利用视频中固有的时间运动动态。在本文中，我们介绍了SSVOD，一个端到端的半监督视频对象检测框架，利用运动动态的视频，利用大规模的未标记的帧与稀疏注释。为了选择性地组装强大的伪标签组的帧，我们引入\textit{流扭曲预测}从附近的帧的时间一致性估计。特别是，我们介绍了交叉IoU和交叉发散的选择方法在一组估计的预测，包括强大的伪标签的边界框和类标签，分别。为了在伪标签中的确认偏差和不确定性噪声之间取得平衡，我们提出了基于置信度阈值的硬伪标签和软伪标签的组合。我们的方法在ImageNet-VID，Epic-KITCHENS和YouTube-VIS数据集上实现了比现有方法显着的性能改进。将发布代码和预训练模型。

1.12 LoRA-like Calibration for Multimodal Deception Detection using ATSFace Data

利用ATSFace数据进行多模欺骗检测的类LORA校正

https://arxiv.org/abs/2309.01383

近年来，基于人体视频的欺骗检测技术是一项引人注目的技术，具有广泛的应用前景。该领域的人工智能模型显示了高精度，但人工智能往往是一个不可解释的黑箱。我们介绍了一个注意力感知的神经网络解决视频数据和欺骗动态固有的挑战。该模型通过对视觉、音频和文本特征的持续评估，精确定位欺骗性线索。我们采用了多模态融合策略，提高了准确性;我们的方法在现实生活中的试验数据集上产生了92%的准确率。最重要的是，该模型表明了视频中的注意力集中，为欺骗线索提供了有价值的见解。因此，我们的方法熟练地检测欺骗和阐明的基础过程。我们进一步丰富了我们的研究与一个实验，涉及学生回答问题的真实或欺骗，产生了一个新的309个视频剪辑数据集，名为ATSFace。利用此，我们还介绍了一种校准方法，这是受低秩自适应（LoRA）的启发，以提高基于个人的欺骗检测精度。

1.13 Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning

基于弱监督自洽学习的通用图像篡改检测

https://arxiv.org/abs/2309.01246

随着先进的图像处理技术的出现，检测操作变得越来越重要。尽管最近的基于学习的图像操纵检测方法取得了成功，但它们通常需要昂贵的像素级注释来训练，同时在与训练图像相比被不同地操纵的图像上进行测试时表现出性能下降。为了解决这些局限性，我们提出了弱监督的图像操作检测，这样只需要二进制图像级标签（真实或篡改）用于训练目的。这种弱监督的设置可以利用更多的训练图像，并有可能快速适应新的操作技术。为了提高泛化能力，我们提出了弱监督自一致性学习（WSCL），利用弱注释的图像。具体而言，学习两个一致性属性：多源一致性（MSC）和补丁间一致性（IPC）。MSC利用不同的内容不可知信息，并通过在线伪标签生成和细化过程实现跨源学习。IPC执行全局成对补丁补丁关系推理，以发现一个完整的区域的操作。大量的实验验证，我们的WSCL，即使是弱监督，表现出竞争力的性能相比，完全监督的同行在分布和分布外的评价，以及合理的操作定位能力。

1.14 EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment

EdaDet：基于早期密集对齐的开放词汇目标检测

https://arxiv.org/abs/2309.01151

CLIP等视觉语言模型提高了开放词汇对象检测的性能，其中检测器在基本类别上进行训练，但需要检测新类别。现有的方法利用CLIP的强大的zero-shot识别能力，使对象级嵌入与类别的文本嵌入对齐。然而，我们观察到，使用CLIP进行对象级对齐会导致对基本类别的过拟合，即，与基本类别最相似的新颖类别具有特别差的性能，因为它们被识别为相似的基本类别。在本文中，我们首先确定的关键细粒度的局部图像语义的损失，阻碍了现有的方法实现强大的基础，以新的概括。然后，我们提出了早期密集对齐（EDA），以弥补可概括的本地语义和对象级预测之间的差距。在EDA中，我们使用对象级监督来学习密集级而不是对象级对齐，以保持局部细粒度语义。大量的实验表明，在相同的严格设置下，在不使用外部训练资源的情况下，我们的性能优于竞争方法，即，提高COCO上+8.4%的新框AP50和LVIS上+3.9%的稀有掩模AP。

1.15 AdvMono3D: Advanced Monocular 3D Object Detection with Depth-Aware Robust Adversarial Training

AdvMono3D：先进的单目3D目标检测，具有深度感知的强大对抗训练

https://arxiv.org/abs/2309.01106

单目3D物体检测在自动驾驶领域起着举足轻重的作用，许多基于深度学习的方法在该领域取得了重大突破。尽管在检测准确性和效率方面取得了进步，但这些模型在面对此类攻击时往往会失败，从而使其无效。因此，增强3D检测模型的对抗鲁棒性已成为一个关键问题，需要立即关注和创新解决方案。为了缓解这个问题，我们提出了一种深度感知的鲁棒对抗训练方法，用于单眼3D对象检测，称为DART 3D。具体来说，我们首先设计了一个对抗攻击，迭代地降低3D对象检测模型（IDP）的2D和3D感知能力，作为我们后续防御机制的基础。针对这种攻击，我们提出了一种基于不确定性的剩余学习方法对抗训练。我们的对抗训练方法利用了固有的不确定性，使模型能够显着提高其对对抗攻击的鲁棒性。我们在KITTI 3D数据集上进行了广泛的实验，证明DART 3D在汽车类别的3D对象检测 $AP_{R40}$ 攻击下优于直接对抗训练（最流行的方法），分别提高了4.415%，4.112%和3.195%。

1.16 Turn Fake into Real: Adversarial Head Turn Attacks Against Deepfake Detection

变假为真：对抗性反转攻击深伪检测

https://arxiv.org/abs/2309.01104

恶意使用deepfakes导致公众严重担忧，降低了人们对数字媒体的信任。尽管已经提出了有效的深度伪造检测器，但它们很容易受到对抗性攻击。为了评估检测器的鲁棒性，最近的研究探索了各种攻击。然而，所有现有的攻击都仅限于2D图像扰动，这很难转化为现实世界的面部变化。在本文中，我们提出了对抗性头转向（AdvHeat），这是针对深度假检测器的3D对抗性人脸视图的首次尝试，基于从单视图假图像合成的人脸视图。大量的实验验证了各种检测器的弱点，在现实的，黑盒的情况下AdvHeat。例如，基于简单随机搜索的AdvHeat通过360个搜索步骤产生96.8%的高攻击成功率。当允许额外的查询访问时，我们可以进一步将步骤预算减少到50。进一步的分析表明，AdvHeat在跨检测器的可转移性和对防御的鲁棒性方面都优于传统攻击。AdvHeat生成的对抗图像也显示出自然的外观。我们的代码，包括用于生成多视图数据集的代码，该数据集由FaceForensics++的1000个ID中的每个ID的360个合成视图组成，可在https://github.com/twowwj/AdvHeaT上获得。

1.17 Enhancing Infrared Small Target Detection Robustness with Bi-Level Adversarial Framework

利用双层对抗框架增强红外小目标检测的稳健性

https://arxiv.org/abs/2309.01099

在模糊和杂乱的背景下，红外小目标的检测仍然是一个长期的挑战。近年来，基于学习的方案已成为主流的方法，直接建立映射。然而，这些方法容易受到变化背景和现实世界干扰的固有复杂性，导致不可靠和妥协的目标估计。在这项工作中，我们提出了一个双水平的对抗框架，以促进检测的鲁棒性，在存在不同的腐败。我们首先提出了一个双层优化公式来引入动态对抗学习。具体而言，它是由可学习的腐败生成，以最大化损失作为较低层的目标和检测器的鲁棒性促进作为较高层的一个复合。我们还提供了一个分层的强化学习策略，以发现最有害的腐败和平衡之间的鲁棒性和准确性的性能。为了更好地理清腐败的显着特点，我们还提出了一个空间频率的相互作用网络的目标检测。大量的实验表明，我们的计划显着提高了21.96%的IOU在各种各样的腐败和显着促进4.97%的IOU的一般基准。源代码可在https://github.com/LiuZhu-CV/BALISTD获得。

1.18 CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection

CoTDet：任务驱动目标检测的启示知识提示

https://arxiv.org/abs/2309.01093

任务驱动的对象检测旨在检测适合于提供图像中的任务的对象实例。它的挑战在于可用于任务的对象类别过于多样化，以至于不能局限于传统对象检测的对象词汇的封闭集合。简单地将常见对象的类别和视觉特征映射到任务不能解决挑战。在本文中，我们建议探索基本的启示，而不是对象类别，即，使不同对象能够完成相同任务的公共属性。此外，我们提出了一种新的多层次的思想链提示（MLCoT）提取的启示性知识，从大型语言模型，其中包含多层次的推理步骤，从任务到对象的例子，基本的视觉属性与理由。此外，充分利用知识，以利于对象识别和定位，我们提出了一个知识条件检测框架，即CoTDet。它根据知识调节检测器以生成对象查询和回归框。实验结果表明，我们的CoTDet始终显著优于最先进的方法（+15.6框AP和+14.8掩模AP），并且可以生成为什么检测到对象以承担任务的理由。

1.19 MILA: Memory-Based Instance-Level Adaptation for Cross-Domain Object Detection

面向跨域目标检测的基于内存的实例级适配算法

https://arxiv.org/abs/2309.01086

跨域对象检测是具有挑战性的，并且它涉及对齐标记的源和未标记的目标域。先前的方法已经使用对抗训练来对齐图像级和实例级的特征。在实例级别，找到与目标样本对齐的合适源样本是至关重要的。如果源样本仅在域中与目标样本不同，而在诸如取向和颜色的不重要特征上没有差异，则源样本被认为是合适的，这可能阻碍模型对域差异的对齐。然而，现有的实例级特征对齐方法很难找到合适的源实例，因为它们的搜索范围仅限于小批量。小批处理的大小通常很小，以至于它们并不总是包含合适的源实例。小批量的多样性不足变得有问题，特别是当目标实例具有高的类内方差时。为了解决这个问题，我们提出了一个基于内存的实例级域适配框架。我们的方法将目标实例与从内存存储中检索到的相同类别的最相似的源实例对齐。具体来说，我们引入了一个内存模块，动态存储所有标记的源实例的池化功能，按其标签分类。此外，我们引入了一个简单而有效的内存检索模块，检索一组匹配的内存插槽的目标实例。我们的实验在各种域移位的情况下表明，我们的方法优于现有的非基于内存的方法显着。

1.20 AB2CD: AI for Building Climate Damage Classification and Detection

AB2CD：用于建筑气候损伤分类和检测的人工智能

https://arxiv.org/abs/2309.01066

我们探讨了在自然灾害的背景下，利用遥感数据进行精确建筑物损坏评估的深度学习技术的实施。xBD数据集包括来自全球各地的各种灾难事件，是主要的焦点，有助于评估深度学习模型。我们解决了新的灾害和地区的泛化的挑战，同时占自然灾害数据中固有的低质量和嘈杂的标签的影响。此外，我们的调查定量确定，有效的建筑物损坏检测至关重要的最小卫星图像分辨率是3米和低于1米的分类使用对称和不对称分辨率扰动分析。为了实现对建筑物损伤检测和分类的稳健和准确评估，我们评估了不同的深度学习模型，包括残差、挤压和激励、双路径网络主干以及集成技术。总体而言，U-Net连体网络组合的F-1得分为0.812，在xView 2挑战基准测试中表现最好。此外，我们评估了通用模型训练的所有危害对洪水专家模型和调查的泛化差距跨事件，并从现场数据在阿尔山谷的分布。我们的研究结果展示了先进的人工智能解决方案在加强气候变化引起的极端天气事件（如洪水和飓风）的影响评估方面的潜力和局限性。这些见解对面对不断升级的气候挑战进行灾害影响评估具有重要意义。

1.21 ObjectLab: Automated Diagnosis of Mislabeled Images in Object Detection Data

对象实验室：物体检测数据中错误标记图像的自动诊断

https://arxiv.org/abs/2309.00832

尽管为自动驾驶汽车等敏感系统提供动力，但对象检测仍然相当脆弱，部分原因是注释错误困扰着大多数现实世界的训练数据集。我们提出了ObjectLab，这是一种简单的算法，可以检测对象检测标签中的各种错误，包括：被忽略的边界框、位置不佳的框以及不正确的类标签分配。ObjectLab利用任何经过训练的对象检测模型来对每个图像的标签质量进行评分，这样就可以自动对错误标记的图像进行优先级排序，以进行标签审查/校正。正确处理错误数据能够训练相同对象检测模型的更好版本，而无需对现有建模代码进行任何更改。在不同的对象检测数据集（包括COCO）和不同的模型（包括Detectron-X101和Faster-RCNN）中，ObjectLab始终检测注释错误，与其他标签质量评分相比，其精确度/召回率要高得多。

1.22 Leveraging Semi-Supervised Graph Learning for Enhanced Diabetic Retinopathy Detection

利用半监督图学习增强糖尿病视网膜病变检测

https://arxiv.org/abs/2309.00824

糖尿病视网膜病变（DR）是全球失明的重要原因，突出了早期发现和有效治疗的迫切需要。机器学习（ML）技术的最新进展已经在DR检测中显示出希望，但是标记数据的可用性通常限制了它们的性能。本研究提出了一种新的半监督图学习SSGL算法为DR检测量身定制，它利用标记和未标记数据之间的关系，以提高准确性。这项工作首先研究数据增强和预处理技术，以解决图像质量和特征变化的挑战。技术，如图像裁剪，调整大小，对比度调整，归一化，和数据增强进行了探讨，以优化特征提取和提高视网膜图像的整体质量。此外，除了检测和诊断，这项工作深入研究了应用ML算法来预测发展DR的风险或疾病进展的可能性。个体患者的个性化风险评分使用包括人口统计信息、病史和视网膜图像的综合患者数据生成。所提出的半监督图学习算法在两个公开可用的数据集上进行了严格的评估，并对现有方法进行了基准测试。结果表明，分类的准确性，特异性和灵敏度显着改善，同时表现出对噪声和离群RS的鲁棒性。值得注意的是，该算法解决了不平衡的数据集，常见的医学图像分析的挑战，进一步提高其实用性。

1.23 AAN: Attributes-Aware Network for Temporal Action Detection

AAN：时态动作检测的属性感知网络

https://arxiv.org/abs/2309.00696

长期视频理解的挑战仍然受到对象语义的有效提取和下游任务的关系建模的限制。虽然CLIP视觉特征对于各种视觉任务表现出辨别性，特别是在对象编码中，但是对于长期的视频理解，它们是次优的。为了解决这个问题，我们提出了属性感知网络（AAN），它由两个关键组件组成：属性提取器和图形推理块。这些组件有助于提取以对象为中心的属性，并在视频中对它们的关系进行建模。通过利用CLIP功能，AAN在两个流行的动作检测数据集上的表现优于最先进的方法：Charades和Toyota Smarthome Untrimmed数据集。

1.24 Fused Classification For Differential Face Morphing Detection

融合分类在人脸变形检测中的应用

https://arxiv.org/abs/2309.00665

人脸变形是一种复杂的表示攻击技术，给人脸识别系统带来了重大的安全隐患。传统的方法很难检测变形攻击，这涉及混合多个人脸图像以创建可以匹配不同个体的合成图像。针对人脸变形的差异检测问题，提出了一种基于融合分类方法的无参考场景下的扩展方法。我们介绍了一个公共的人脸变形检测基准的差异情况下，并利用一个特定的数据挖掘技术，以提高我们的方法的性能。实验结果表明，我们的方法检测变形攻击的有效性。

1.25 INCEPTNET: Precise And Early Disease Detection Application For Medical Images Analyses

INCEPTNET：医学图像分析中的精确和早期疾病检测应用

https://arxiv.org/abs/2309.02147

鉴于最近基于深度AI的图像处理方法的范式转变，医学图像处理已经取得了相当大的进展。在这项研究中，我们提出了一种新的深度神经网络（DNN），名为InceptNet，在医学图像处理的范围内，用于早期疾病检测和医学图像分割，以提高精度和性能。我们还调查了用户与InceptNet应用程序的交互，提出了一个全面的应用程序，包括后台进程，前台与用户的交互。Fast InceptNet由突出的Unet架构塑造，它抓住了Inception模块的力量，使其快速且经济高效，同时旨在接近最优的局部稀疏结构。添加具有各种并行内核大小的Inception模块可以提高网络捕获缩放的感兴趣区域中的变化的能力。为了进行实验，该模型在四个基准数据集上进行测试，包括视网膜血管分割、肺结节分割、皮肤病变分割和乳腺癌细胞检测。在具有小尺度结构的图像上，改善更显着。所提出的方法提高了精度从0.9531，0.8900，0.9872，和0.9881到0.9555，0.9510，0.9945，和0.9945，分别在上述数据集上，这表明优于所提出的方法比以前的作品。此外，通过探索从开始到结束的过程中，个人谁利用了InceptNet的试用版，在一个完整的应用程序的形式，提出了13个多项选择题，以评估所提出的方法。结果通过人机交互的手段进行评价。

1.26 A Lightweight, Rapid and Efficient Deep Convolutional Network for Chest X-Ray Tuberculosis Detection

一种轻量级、快速、高效的胸片胸片检测深度卷积网络

https://arxiv.org/abs/2309.02140

结核病（TB）仍然被认为是全世界死亡的主要原因之一。深度学习（DL）的最新进展已证明增强了放射科医生准确解释胸部X射线（CXR）图像的能力，错误更少，从而更好地诊断这种疾病。然而，几乎没有工作已经做了开发能够诊断结核病的模型，提供良好的性能，同时是高效，快速和计算便宜。在这项工作中，我们提出了LightTBNet，一种新颖的轻量级，快速和高效的深度卷积网络，专门定制用于检测来自CXR图像的TB。使用来自两个公开可用的数据集的总共800张额叶CXR图像，我们的解决方案在独立的测试子集上产生了准确度，F1和ROC曲线下面积（AUC）分别为0.906，0.907和0.961。所提出的模型表现出出色的性能，同时提供快速预测，最小的计算和内存需求，使其非常适合部署在可用于高TB流行率的低资源地区的手持设备中。代码可在https://github.com/dani-capellan/LightTBNet公开获取。

1.27 Enhancing Automated and Early Detection of Alzheimer’s Disease Using Out-Of-Distribution Detection

利用非分布检测提高阿尔茨海默病的自动化和早期检测

https://arxiv.org/abs/2309.01312

超过10.7%的65岁及以上的人患有阿尔茨海默病。早期诊断和治疗是至关重要的，因为大多数阿尔茨海默氏症患者在影响变得有害之前都不知道有它。人工智能已经知道使用磁共振成像（MRI）来诊断阿尔茨海默氏症。然而，产生低错误诊断率的模型对于防止不必要的治疗至关重要。因此，我们训练了有监督的随机森林模型与分割的脑体积和卷积神经网络（CNN）输出，以分类不同的阿尔茨海默病阶段。然后，我们将分布外（OOD）检测应用于CNN模型，使其能够在可能出现错误分类时报告OOD，从而减少错误诊断。我们的模型基于CNN结果的检测准确率为98%，分类准确率为95%，优于我们的分割体积模型，其检测和分类准确率分别为93%和87%。将OOD检测应用于CNN模型，使其能够以96%的准确度和最小的总体准确度降低将脑肿瘤图像标记为OOD。通过使用OOD检测来增强使用CNN的MRI分类的可靠性，我们降低了假阳性率，并消除了使用机器学习模型进行医疗保健任务的显著缺点。源代码可根据要求提供。

1.28 A novel framework employing deep multi-attention channels network for the autonomous detection of metastasizing cells through fluorescence microscopy

利用深层多注意通道网络通过荧光显微镜自主检测转移细胞的新框架

https://arxiv.org/abs/2309.00911

我们开发了一个透明的计算大规模成像为基础的框架，可以区分正常和转移的人类细胞。该方法依赖于荧光显微镜图像显示肌动蛋白和波形蛋白丝在正常和转移单细胞的空间组织，使用多注意通道网络和全球可解释技术的组合。我们测试了正常细胞（Bj原代成纤维细胞）及其同基因匹配、转化和侵入性对应物（BjTertSV 40 TRasV 12）之间的分类。由于生物学相关特征的复杂性，手动注释对于自动化来说不是微不足道的。在这项研究中，我们利用了已建立的深度学习网络和我们新的多注意力通道架构。为了增加网络的可解释性-这一应用领域至关重要-我们开发了一种可解释的全局可解释的方法，该方法将总细胞图像的加权几何平均值和它们的局部GradCam分数相关联。从我们的分析的显着结果前所未有地允许一个更详细的，和生物学相关的理解，伴随着正常的侵袭性和转移细胞的致癌转化的细胞骨架的变化。我们还为未来开发针对转移的诊断工具（波形蛋白的空间分布）的可能的空间微米级生物标志物铺平了道路。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（9 月 6 日论文合集）