计算机视觉是人工智能的一个领域，它使机器能够解释和理解视觉世界，随着突破性的研究和技术进步，它正在迅速发展。

每周，一些顶级学术会议和期刊都会展示计算机视觉方面的创新研究，展示图像识别、视觉模型优化、生成对抗网络（GAN）、图像分割、视频分析等各个子领域的令人兴奋的突破。

在本文中，我们将全面概述 2023 年 9 月第一周发表的最重要论文，重点介绍计算机视觉领域的最新研究和进展。无论您是研究人员、从业者还是爱好者，本文都将为您提供有关计算机视觉领域最先进技术和工具的宝贵见解。

1. 图像识别

1 .FACET：计算机视觉评估基准的公平性

计算机视觉模型已知性别和肤色等属性之间的性能差异。这意味着在分类和检测等任务中，根据图像中人员的人口统计数据，某些类别的模型性能会有所不同。这些差异已被证明是存在的，但到目前为止，还没有一种统一的方法来衡量计算机视觉模型常见用例的这些差异。我们提出了一个名为 FACET（计算机视觉评估公平性）的新基准，这是一个包含 32k 图像的大型公开评估集，适用于一些最常见的视觉任务——图像分类、对象检测和分割。对于 FACET 中的每张图像，我们聘请了专家评审员来手动注释与人物相关的属性，例如感知的肤色和头发类型，手动绘制边界框，并标记细粒度的与人相关的类别，例如唱片骑师或吉他手。此外，我们使用 FACET 来对最先进的视觉模型进行基准测试，并更深入地了解跨敏感人口统计属性的潜在绩效差异和挑战。通过收集详尽的注释，我们使用单一人口统计属性以及使用交叉方法（例如头发颜色和感知肤色）的多个属性来探索模型。我们的结果表明，分类、检测、分割和视觉基础模型在人口统计属性和属性交叉点上表现出性能差异。这些危害表明，并非数据集中代表的所有人在这些视觉任务中都得到公平和公正的待遇。

1.2. 对比特征掩蔽开放词汇视觉转换器

我们提出了一种对比特征掩蔽视觉变换器（CFM-ViT）——一种图像文本预训练方法，可实现开放词汇对象检测（OVD）的图像和区域级表示的同时学习。我们的方法将屏蔽自动编码器（MAE）目标与对比学习目标相结合，以改善本地化任务的表示。与标准 MAE 不同，我们在联合图像文本嵌入空间中进行重建，而不是经典 MAE 方法通常在像素空间中进行的重建，这使得模型能够更好地学习区域级语义。此外，我们引入了位置嵌入丢弃（PED），通过在预训练期间随机丢弃位置嵌入来解决图像文本预训练和检测微调之间的尺度变化。PED 提高了检测性能，并允许使用冻结的 ViT 主干作为区域分类器，防止在检测微调期间忘记开放词汇知识。在 LVIS 开放词汇检测基准上，CFM-ViT 达到了最先进的 33.9 APr，比最佳方法高出 7.6 个点，并实现了更好的零样本检测迁移。最后，CFM-ViT 获得了强大的图像级表示，在零样本图像文本检索基准的 12 个指标中的 8 个指标上优于现有技术。6分并实现更好的零样本检测转移。最后，CFM-ViT 获得了强大的图像级表示，在零样本图像文本检索基准的 12 个指标中的 8 个指标上优于现有技术。6分并实现更好的零样本检测转移。最后，CFM-ViT 获得了强大的图像级表示，在零样本图像文本检索基准的 12 个指标中的 8 个指标上优于现有技术。

2. 视频分析与理解

2.1. 通过解耦视频分段跟踪任何内容

视频分割训练数据的注释成本很高。这阻碍了端到端算法扩展到新的视频分割任务，特别是在大词汇量设置中。为了在无需对每个任务的视频数据进行训练的情况下“跟踪任何内容”，我们开发了一种解耦视频分割方法（DEVA），该方法由特定于任务的图像级分割和与类/任务无关的双向时间传播组成。由于这种设计，我们只需要目标任务的图像级模型（训练成本更低）和通用时间传播模型，该模型只需训练一次即可跨任务泛化。为了有效地结合这两个模块，我们使用双向传播对来自不同帧的分割假设进行（半）在线融合，以生成连贯的分割。

2.2. ProPainter：改进视频修复的传播和转换器

基于流的传播和时空 Transformer 是视频修复（VI）中的两种主流机制。尽管这些组件非常有效，但它们仍然存在一些影响其性能的限制。以前基于传播的方法是在图像或特征域中单独执行的。与学习隔离的全局图像传播可能会因光流不准确而导致空间错位。此外，内存或计算限制限制了特征传播和视频 Transformer 的时间范围，从而阻止了从远处帧探索对应信息。为了解决这些问题，我们提出了一个改进的框架，称为 ProPainter，其中涉及增强的 ProPagation 和高效的 Transformer。具体来说，我们引入了双域传播，它结合了图像和特征扭曲的优点，可靠地利用了全局对应关系。我们还提出了一种掩模引导的稀疏视频变换器，它通过丢弃不必要和冗余的标记来实现高效率。借助这些组件，ProPainter 的 PSNR 性能比现有技术高出 1.46 dB，同时保持了令人瞩目的效率。

扫描二维码关注公众号，回复： 16669747 查看本文章

3. 图像和视频生成

3.1. VideoGen：一种用于生成高清文本到视频的参考引导潜在扩散方法

在本文中，我们提出了 VideoGen，一种文本到视频的生成方法，它可以使用参考引导的潜在扩散生成具有高帧保真度和强时间一致性的高清视频。我们利用现成的文本到图像生成模型（例如稳定扩散）从文本提示生成具有高内容质量的图像，作为指导视频生成的参考图像。然后，我们引入了一个以参考图像和文本提示为条件的高效级联潜在扩散模块，用于生成潜在视频表示，然后是基于流的时间上采样步骤以提高时间分辨率。最后，我们通过增强型视频解码器将潜在视频表示映射为高清视频。在训练中，我们使用真实视频的第一帧作为参考图像来训练级联潜在扩散模块。我们的方法的主要特点包括：由文本到图像模型生成的参考图像提高了视觉保真度；以它为条件使得扩散模型更加专注于视频动态的学习；视频解码器是在未标记的视频数据上进行训练的，从而受益于易于获得的高质量视频。VideoGen 在定性和定量评估方面树立了文本到视频生成的最新技术。文本到图像模型生成的参考图像提高了视觉保真度；以它为条件使得扩散模型更加专注于视频动态的学习；视频解码器是在未标记的视频数据上进行训练的，从而受益于易于获得的高质量视频。VideoGen 在定性和定量评估方面树立了文本到视频生成的最新技术。文本到图像模型生成的参考图像提高了视觉保真度；以它为条件使得扩散模型更加专注于视频动态的学习；视频解码器是在未标记的视频数据上进行训练的，从而受益于易于获得的高质量视频。VideoGen 在定性和定量评估方面树立了文本到视频生成的最新技术。

3.2. CityDreamer：无界 3D 城市的组合生成模型

近年来，广泛的研究集中在 3D 自然场景生成上，但 3D 城市生成领域还没有得到太多的探索。这是由于3D城市生成带来了更大的挑战，主要是因为人类对城市环境的结构扭曲更加敏感。此外，生成 3D 城市比 3D 自然场景更复杂，因为与自然场景中树木等对象相对一致的外观相比，建筑物作为同一类对象表现出更广泛的外观。为了应对这些挑战，我们提出了 CityDreamer，这是一种专门为无界 3D 城市设计的组合生成模型，它将建筑实例的生成与其他背景对象（例如道路、绿地和水域）分离成不同的模块。此外，我们构建了两个数据集 OSM 和 GoogleEarth，其中包含大量真实世界的城市图像，以增强生成的 3D 城市布局和外观的真实感。通过大量实验，CityDreamer 已证明其在生成各种逼真的 3D 城市方面优于最先进的方法。

3.3. Point-Bind 和 Point-LLM：将点云与多模态对齐，以实现 3D 理解、生成和指令跟踪

我们引入了 Point-Bind，这是一种将点云与 2D 图像、语言、音频和视频对齐的 3D 多模态模型。在 ImageBind 的指导下，我们构建了 3D 和多模态之间的联合嵌入空间，从而实现了许多有前景的应用，例如任意 3D 生成、3D 嵌入算法和 3D 开放世界理解。除此之外，我们还进一步介绍了 Point-LLM，这是第一个遵循 3D 多模态指令的 3D 大语言模型 (LLM)。通过参数高效的微调技术，Point-LLM将Point-Bind的语义注入到预先训练的LLM中，例如LLaMA，它不需要3D指令数据，但表现出卓越的3D和多模态问答能力。我们希望我们的工作能够为社区带来启发，将 3D 点云扩展到多模态应用。

3.4. AniPortraitGAN：从 2D 图像集合生成可动画的 3D 肖像

之前针对人类一代的可动画 3D 感知 GAN 主要关注人类头部或全身。然而，仅头部视频在现实生活中相对不常见，全身生成通常不涉及面部表情控制，并且在生成高质量结果方面仍然面临挑战。针对适用的视频头像，我们提出了一种可动画的 3D 感知 GAN，它可以生成具有可控面部表情、头部姿势和肩膀运动的肖像图像。它是一种在非结构化 2D 图像集合上训练的生成模型，不使用 3D 或视频数据。对于新任务，我们的方法基于生成辐射流形表示，并为其配备可学习的面部和头肩变形。提出了双摄像头渲染和对抗性学习方案来提高生成的人脸质量，这对于肖像图像至关重要。开发了姿势变形处理网络来为长发等具有挑战性的区域生成合理的变形。实验表明，我们的方法在非结构化 2D 图像上进行训练，可以生成多样化且高质量的 3D 肖像，并对不同属性进行所需的控制。

3.5. ControlMat：一种材料捕获的受控生成方法

从照片中重建素材是 3D 内容创作民主化的关键组成部分。我们建议利用生成深度网络的最新进展，将这一不适定问题表述为受控综合问题。我们提出了 ControlMat，这是一种方法，给定一张具有不受控制的照明的照片作为输入，调节扩散模型以生成合理的、可平铺的、高分辨率的基于物理的数字材料。我们仔细分析了多通道输出的扩散模型的行为，调整采样过程以融合多尺度信息，并引入滚动扩散以实现高分辨率输出的可平铺性和修补扩散。我们的生成方法进一步允许探索可以对应于输入图像的各种材料，减轻未知的照明条件。我们证明了我们的方法优于最近的推理和潜在空间优化方法，并仔细验证了我们的扩散过程设计选择。

3.6. 用于视频外绘的分层蒙版 3D 扩散模型

视频修复的目的是充分补全视频帧边缘的缺失区域。与图像外画相比，它提出了额外的挑战，因为模型应该保持填充区域的时间一致性。在本文中，我们介绍了一种用于视频绘制的蒙版 3D 扩散模型。我们使用掩模建模技术来训练 3D 扩散模型。这使得我们可以使用多个引导帧来连接多个视频剪辑推理的结果，从而保证时间一致性并减少相邻帧之间的抖动。同时，我们提取视频的全局帧作为提示，并利用交叉注意力引导模型获取当前视频片段之外的信息。我们还引入了混合从粗到精的推理管道来缓解伪影累积问题。现有的从粗到精的管道仅使用填充策略，由于稀疏帧的时间间隔过大，带来了性能退化。我们的管道受益于掩模建模的双向学习，因此可以在生成稀疏帧时采用填充和插值的混合策略。实验表明，我们的方法在视频绘制任务中取得了最先进的结果。

3.7. MagicProp：通过运动感知外观传播进行基于扩散的视频编辑

本文解决了在保留视频运动的同时修改视频视觉外观的问题。提出了一种名为 MagicProp 的新颖框架，它将视频编辑过程分为两个阶段：外观编辑和运动感知外观传播。在第一阶段，MagicProp 从输入视频中选择单个帧，并应用图像编辑技术来修改该帧的内容和/或风格。这些技术的灵活性使得能够编辑帧内的任意区域。在第二阶段，MagicProp 使用编辑的帧作为外观参考，并使用自回归渲染方法生成剩余的帧。为了实现这一目标，开发了一种名为 PropDPM 的基于扩散的条件生成模型，它通过调节参考外观、目标运动及其先前的外观来合成目标帧。自回归编辑方法可确保生成的视频的时间一致性。总体而言，MagicProp 将图像编辑技术的灵活性与自回归建模的卓越时间一致性相结合，能够在输入视频的任意区域灵活编辑对象类型和美学风格，同时保持跨帧的良好时间一致性。在各种视频编辑场景中的大量实验证明了MagicProp的有效性。MagicProp 将图像编辑技术的灵活性与自回归建模的卓越时间一致性相结合，能够在输入视频的任意区域灵活编辑对象类型和美学风格，同时保持跨帧的良好时间一致性。在各种视频编辑场景中的大量实验证明了MagicProp的有效性。MagicProp 将图像编辑技术的灵活性与自回归建模的卓越时间一致性相结合，能够在输入视频的任意区域灵活编辑对象类型和美学风格，同时保持跨帧的良好时间一致性。在各种视频编辑场景中的大量实验证明了MagicProp的有效性。

3.8. 扩散生成逆设计

逆向设计是指优化目标函数的输入以实现目标结果的问题。对于许多现实世界的工程问题，目标函数采用模拟器的形式，预测系统状态将如何随时间演变，而设计挑战是优化导致目标结果的初始条件。学习模拟的最新发展表明，图神经网络 (GNN) 可用于准确、高效、可微分地估计模拟器动力学，并通过基于梯度或采样的优化程序支持高质量的设计优化。然而，从头开始优化设计需要许多昂贵的模型查询，并且这些过程在非凸或高维问题上表现出基本失败。在这项工作中，我们展示了如何使用去噪扩散模型（DDM）来有效地解决逆向设计问题，并提出了一种粒子采样算法以进一步提高其效率。我们针对许多流体动力学设计挑战进行了实验，发现与标准技术相比，我们的方法大大减少了对模拟器的调用次数。

3.9. InstructDiffusion：视觉任务的通用建模接口

我们提出了 InstructDiffusion，这是一个统一的通用框架，用于将计算机视觉任务与人类指令结合起来。与整合先验知识并为每个视觉任务预先定义输出空间（例如类别和坐标）的现有方法不同，我们将不同的视觉任务转化为人类直观的图像处理过程，其输出空间是灵活且交互式的像素空间。具体来说，该模型建立在扩散过程的基础上，并经过训练以根据用户指令预测像素，例如用红色圈住该人的左肩或对左侧汽车应用蓝色遮罩。InstructDiffusion 可以处理各种视觉任务，包括理解任务（例如分割和关键点检测）和生成任务（例如编辑和增强）。它甚至表现出处理看不见的任务的能力，并在新颖的数据集上优于先前的方法。这代表着向视觉任务通用建模接口迈出了重要一步，推动了计算机视觉领域的通用人工智能的发展。

3.10. SyncDreamer：从单视图图像生成多视图一致的图像

在本文中，我们提出了一种新颖的扩散模型，可以从单视图图像生成多视图一致的图像。最近的工作 Zero123 使用预训练的大规模 2D 扩散模型，展示了从物体的单视图图像生成可信的新颖视图的能力。然而，保持生成图像的几何形状和颜色的一致性仍然是一个挑战。为了解决这个问题，我们提出了一种同步多视图扩散模型，该模型对多视图图像的联合概率分布进行建模，从而能够在单个反向过程中生成多视图一致的图像。SyncDreamer 通过 3D 感知特征注意机制同步逆向过程的每一步中所有生成图像的中间状态，该机制将不同视图中的相应特征关联起来。

3.11. Text2Control3D：使用几何引导文本到图像扩散模型在神经辐射场中生成可控 3D 头像

ControlNet 等扩散模型的最新进展实现了几何可控、高保真文本到图像的生成。然而，它们都没有解决在文本到 3D 生成中添加这种可控性的问题。为此，我们提出了 Text2Control3D，一种可控的文本到 3D 头像生成方法，在使用手持相机随意拍摄的单眼视频的情况下，其面部表情是可控的。我们的主要策略是在神经辐射场 (NeRF) 中构建 3D 头像，并使用我们从 ControlNet 生成的一组受控视点感知图像进行优化，其条件输入是从输入视频中提取的深度图。在生成视点感知图像时，我们利用交叉引用注意力通过交叉注意力注入良好控制的、参考性的面部表情和外观。我们还对扩散模型的高斯潜伏进行低通滤波，以改善我们在实证分析中观察到的与视点无关的纹理问题，其中视点感知图像在相同像素位置上包含相同的纹理，而这些纹理在 3D 中是难以理解的。最后，为了使用具有视点感知但几何形状不严格一致的图像来训练 NeRF，我们的方法将每个图像的几何变化视为共享 3D 规范空间的变形视图。因此，我们通过变形场表学习一组每图像变形，在可变形 NeRF 的规范空间中构造 3D 头像。我们展示了实证结果并讨论了我们方法的有效性。

3.12. 重用和扩散：文本到视频生成的迭代去噪

受到用于图像合成的潜在扩散模型（LDM）取得的巨大成功的启发，我们研究了用于文本到视频生成的LDM，由于模型训练和推理过程中的计算和内存限制，这是一个巨大的挑战。单个 LDM 通常只能生成数量非常有限的视频帧。一些现有的工作专注于生成更多视频帧的单独预测模型，然而，这会产生额外的训练成本和帧级抖动。在本文中，我们提出了一个名为“重用和扩散”的框架，称为 VidRD，以在 LDM 已生成的帧之后生成更多帧。以具有少量帧的初始视频剪辑为条件，通过重用原始潜在特征并遵循先前的扩散过程来迭代生成附加帧。此外，对于用于像素空间和潜在空间之间转换的自动编码器，我们将时间层注入到其解码器中，并对这些层进行微调以获得更高的时间一致性。我们还提出了一套用于组合视频文本数据的策略，其中涉及多个现有数据集的不同内容，包括用于动作识别的视频数据集和图像文本数据集。大量的实验表明，我们的方法在定量和定性评估方面都取得了良好的效果。我们还提出了一套用于组合视频文本数据的策略，其中涉及多个现有数据集的不同内容，包括用于动作识别的视频数据集和图像文本数据集。大量的实验表明，我们的方法在定量和定性评估方面都取得了良好的效果。我们还提出了一套用于组合视频文本数据的策略，其中涉及多个现有数据集的不同内容，包括用于动作识别的视频数据集和图像文本数据集。大量的实验表明，我们的方法在定量和定性评估方面都取得了良好的效果。

4. 图像分割

4.1. SLiMe：像我一样细分

使用稳定扩散 (SD) 等大型视觉语言模型在各种下游任务（包括图像编辑、图像对应和 3D 形状生成）方面已经取得了重大进展。受这些进步的启发，我们通过提出 SLiMe，探索利用这些广泛的视觉语言模型以任何所需的粒度使用最少一个带注释的样本来分割图像。SLiMe 将此问题视为优化任务。具体来说，给定单个训练图像及其分割掩模，我们首先提取注意力图，包括来自 SD 先验的新颖的“加权累积自我注意力图”。然后，使用提取的注意力图，对稳定扩散的文本嵌入进行优化，以便每个嵌入都从训练图像中学习单个分割区域。然后，这些学习到的嵌入会突出显示注意图中的分割区域，然后可以使用该区域来导出分割图。这使得 SLiMe 能够在推理过程中使用训练图像中分割区域的粒度来分割任何现实世界的图像，仅使用一个示例。此外，利用可用的额外训练数据（即少量训练数据）可以提高 SLiMe 的性能。我们进行了一组知识丰富的实验，检查了各种设计因素，结果表明 SLiMe 优于其他现有的单次和少次分割方法。仅举一个例子。此外，利用可用的额外训练数据（即少量训练数据）可以提高 SLiMe 的性能。我们进行了一组知识丰富的实验，检查了各种设计因素，结果表明 SLiMe 优于其他现有的单次和少次分割方法。仅举一个例子。此外，利用可用的额外训练数据（即少量训练数据）可以提高 SLiMe 的性能。我们进行了一组知识丰富的实验，检查了各种设计因素，结果表明 SLiMe 优于其他现有的单次和少次分割方法。

5. 图像重建

5.1. 分身：学习消除相似结构图像的歧义

我们考虑视觉消歧任务，确定一对视觉上相似的图像是否描绘相同或不同的 3D 表面（例如，对称建筑物的相同或相反的侧面）。虚幻的图像匹配，即两个图像观察到不同但视觉上相似的 3D 表面，对于人类来说很难区分，并且还可能导致 3D 重建算法产生错误的结果。我们提出了一种基于学习的视觉消歧方法，将其制定为图像对的二元分类任务。为此，我们为这个问题引入了一个新的数据集，Doppelgangers，其中包括带有真实标签的相似结构的图像对。我们还设计了一种网络架构，将局部关键点的空间分布作为输入进行匹配，允许更好地推理本地和全局线索。我们的评估表明，我们的方法可以在困难的情况下区分虚幻匹配，并且可以集成到 SfM 管道中以生成正确的、消除歧义的 3D 重建。

今年最值得读的计算机视觉论文

目录：