字节跳动智能创作团队多篇论文入选 CVPR 2022

日前，CVPR 2022 官方公布了接收论文列表，来自字节跳动智能创作团队的 12 篇论文被 CVPR 收录，包含 1 篇 Oral（口头演讲论文）。

CVPR 全称 IEEE 国际计算机视觉与模式识别会议（IEEE Conference on Computer Vision and Pattern Recognition），该会议始于 1983 年，是计算机视觉和模式识别领域的顶级会议，每年都吸引了各大高校、科研机构与科技公司的论文投稿，许多重要的计算机视觉技术成果都在 CVPR 上中选发布。

接下来为大家分享智能创作团队 CVPR2022 收录论文的核心突破，一起来学习计算机视觉领域的最前沿研究成果吧！

基于跳舞视频的通用虚拟换装 / Dressing in the Wild by Watching Dance Videos

这篇论文由字节跳动和中山大学共同完成。

文章聚焦于真实场景中复杂人体姿势的虚拟换装任务，提出了 2D、3D 相结合的视频自监督训练模型 wFlow，在有挑战性的宽松衣服与复杂姿态上效果提升明显，可以实现全身&局部换装。同时本文构建了一个新的大规模视频数据集 Dance50k，涵盖了多种类型的服装及复杂人体姿势，以期促进虚拟换装及其他以人体为中心的图像生成研究。

由于缺乏对人体潜在的 3D 信息感知能力及相应的多样化姿态&衣服数据集，现有的虚拟换装工作局限于简单人体姿态及贴身衣物，极大地限制了其在真实场景下的应用能力。本文通过提出一个全新的真实世界视频数据集 Dance50k，并结合引入 2D 像素流与 3D 顶点流，形成更通用的外观流预测模块（命名为 wFlow），在解决宽松衣服变形的同时提升对复杂人体姿势的适应力。通过在 Dance50k 上进行跨帧自监督训练并对复杂例子进行在线环式优化，实验证明 wFlow 相较现有的单一像素或者顶点外观流方法在真实世界图片上泛化性更高，优于其他 SOTA 方法，为虚拟试穿提供了更为通用的解决方案。

arxiv: arxiv.org/abs/2203.15…

code: awesome-wflow.github.io/

GCFSR: 不借助人脸先验，一种生成细节可控的人脸超分方法 / GCFSR: a Generative and Controllable Face Super Resolution Method Without Facial and GAN Priors

这篇论文由字节跳动和中国科学院先进院技术研究院共同完成。

人脸超分辨通常依靠面部先验来恢复真实细节并保留身份信息。在 GAN piror 的帮助下，最近的进展可以取得令人印象深刻的结果。他们要么设计复杂的模块来修改固定的 GAN prior，要么采用复杂的训练策略来对生成器进行微调。我们提出了一种生成细节可控的人脸超分框架，称为 GCFSR，它可以重建具有真实身份信息的图像，而无需任何额外的先验。

GCFSR 是一个编码器-生成器架构。为了完成多个放大倍率的人脸超分，我们设计了两个模块：样式调制和特征调制模块。风格调制旨在生成逼真的面部细节；特征调制会根据条件放大倍率对多尺度编码特征和生成特征进行动态融合。该架构简单而优雅，可以用端到端的方式从头开始训练。

对于较小倍率超分（<=8），GCFSR 可以在仅有的 GAN loss 的约束下产生令人惊讶的好结果。在添加 L1 loss 和 perceptual loss 后，GCFSR 可以在大倍率超分任务上（16, 32, 64）达到 sota 的结果。而在测试阶段，我们可以通过特征调制来调节生成细节的强度，通过不断改变条件放大倍率来实现各种生成效果。

arxiv: arxiv.org/abs/2203.07…

code: github.com/hejingwenhe…

局部解耦的图像生成 / SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing

StyleGAN 在图像生成和编辑方面已经取得了非常大的成功。然而在实际应用中，一个重要的问题在于它的 latent space 是基于图像尺度来分解的（64x64、128x128），这使得 StyleGAN 擅长做全局风格的控制，却不利于局部编辑。本文提出一种新的 GAN 网络，使得 latent space 在不同的语义局部上解耦。

为了实现这一目标，本文从 inductive bias 和监督信息两个方面入手。在第一方面，本文将 StyleGAN 生成器的底层生成模块分解为不同的局部生成器，每个生成器生成对应某个区域的局部特征图（feature map）和伪深度图（pseudo-depth map），这些伪深度图随后以类似 z-buffering 的方式组合全局的 semantic mask 和 feature map 来渲染图像。在监督信息方面，本文提出了一种 dual-branch discriminator，同时对图像及其语义标签同时建模，保证每一个局部生成器能对应有意义的局部。

最终得到的模型能够对每个语义局部构建独立的 latent space，实现局部的风格变换。同时作为类似 StyleGAN 的上游模型，可以在保证局部可控的前提下配合 latent space 的编辑方法进行图像编辑。

arxiv: arxiv.org/abs/2112.02…

code: semanticstylegan.github.io

基于学习结构和纹理表征的三维感知图像生成 / 3D-aware Image Synthesis via Learning Structural and Textural Representations

这篇论文由字节跳动和香港中文大学、浙江大学共同完成。

近年来，生成模型在图像领域得到了飞速发展，生成图像的质量和分辨率都大幅提升。然而，大多数算法还都集中在二维图像的生成上。让生成模型感知到三维信息是一个能够让模型更贴近我们真实世界的重要一步。已经有的一些尝试利用了二维图像生成中非常常见的生成性对抗网络（GAN），并将其中的生成器替换成了一个神经辐射场（NeRF）。NeRF 可以将三维空间坐标当作先验，逐像素地渲染出一张图片来。然而，NeRF 中的隐式函数有一个非常局部的感受野，使得生成器很难意识到物体的全局结构。同时，NeRF 建立在体绘制（volume rendering）的基础上，增加了生成成本和优化难度。

为了解决这两个问题，我们提出了一个新的三维感知生成器来显示地学习物体的结构表征和纹理表征。我们称之为 VolumeGAN。具体来说，我们的生成器首先学习一个用来表示物体底层结构的特征体（feature volume），然后将这个特征体转换为特征场（feature field），再通过积分的形式将之转换为特征图（feature map），最终利用神经渲染器合成一张二维图像。这种设计可以实现对生成物体结构和外观的独立控制。在众多数据集上进行的大量实验表明，与以前的方法相比，我们的方法取得了更好的生成图像质量以及更加准确的三维可控性。

arxiv: arxiv.org/abs/2112.10…

code: github.com/genforce/vo…

demo: www.youtube.com/watch?v=p85…

XMP-Font: 基于自监督跨模态预训练模型的少样本字体生成 / XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font Generation

由于汉字的数量非常庞大，传统的手动字体设计过程费时费力。少样本字体生成旨在只用一个或者少数几个汉字作参考就可以生成全套字体。然而，汉字的字体风格不仅仅是简单的形状和纹理，还有笔画之间的间架结构，要想理解好汉字字体的风格特征，就必须深入理解汉字书写基本笔画之间的复杂关系，否则就无法保证生成字体的质量。

为解决上述问题，我们提出了一种基于自监督跨模态预训练模型的少样本字体生成算法，主要分为两个阶段：

（1）预训练阶段：预训练一个基于 BERT 的跨模态（文字图像和笔顺信息)的特征提取模型，通过重建损失和笔画预测损失保证在不损失信息的情况下，让提取到的字体特征充分理解笔画之间的关系。

（2）字体生成阶段：通过预训练好的特征提取器分别提取源域字和参考字的特征，并进行解耦重组，最终生成和参考字形相同字体的源域字。

此外，我们在字体生成阶段提出针对汉字的 stroke loss，进一步提高了生成质量。

通过实验的量化指标和问卷调研的结果表明，我们提出的 XMP-Font 优于其他 SOTA 方法。

多尺度特征融合 Transformer / Shunted Self-Attention via Multi-Scale Token Aggregation（Oral Presentation）

这篇论文由字节跳动与新加坡国立大学、华南理工大学合作完成。

文章提出了一种新的多尺度自注意力机制：在每一层进行 correlation 学习的时候，赋予不同 token 不同的感受野，进而学习到不同尺度 semantics 之间的相关性。

与当前多尺度不同的点在于，本文的多尺度信息是并行存在于同一个 block 的 input token 上的，而不是通过传递不同 block 之间的 token 进行融合。因此方法在包含不同大小物体的数据集上，比如 COCO，性能优势尤为明显，对比 SWIN transformer，在模型内存和计算量类似的情况下，可达到 3-4% mAP 的性能提升。

arxiv: arxiv.org/pdf/2111.15…

code: github.com/oliverrensu…

基于压缩域的端到端通用事件表示学习 / End-to-End Compressed Video Representation Learning for Generic Event Boundary Detection

这篇论文由字节跳动和中国科学院大学、中国科学院软件研究所共同完成。

文章提出了在视频压缩域（Compressed Domain）上进行端到端通用事件检测（GEBD）的解决方案。

传统的视频处理算法需要对视频进行解码，在解码后的 RGB 帧上进行训练和推理。然而视频解码本身需要占用比较可观的计算资源，并且视频相邻帧之间包含了大量的冗余信息。另外在视频编码格式中的运动向量（Motion Vector）和残差（Residual）包含了视频的运动信息，这些信息能够为更好地理解视频提供更多帮助。

基于上述两点考虑，我们希望能够使用视频压缩域上的解码中间信息来对非关键帧进行快速高质量的特征提取。为此我们提出了 SCCP（Spatial Channel Compressed Encoder） 模块。对于关键帧在完全解码后使用常规骨干网络提取特征。对于非关键帧，通过使用运动向量和残差以及对应的关键帧特征在轻量级的网络上提取非关键帧的高质量特征。同时利用 Temporal Contrasitive 模块实现端到端的训练和推理。实验证明在保持和传统完全解码方法精度相同的前提下，我们的方法在模型上的提速 4.5 倍。

arxiv: arxiv.org/abs/2203.15…

模仿 oracle：通过初始阶段的表征去相关性来提升类增量学习 / Mimicing the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning

这篇论文由字节跳动与新加坡国立大学、中科院自动化所、牛津大学合作完成。

本文主要研究了 class incremental learning，即类增量学习。最终的学习目标是希望通过阶段式的学习（phase-by-phase learning）能够得到一个与 joint training 性能匹配的模型。类增量学习最大的挑战即是：在学习完某一阶段的类别之后，模型在之前阶段类别的性能将大大下降。这一现象被称之为 forgetting。

对于一个分为多个阶段的类增量学习过程，我们可以将之分成两个部分，即 initial phase （第一个学习阶段）与 later phase （除第一个学习阶段后面所有的学习阶段）。以往的工作往往都是在 later phase 对模型进行正则化来减轻遗忘，而不对 initial phase 做特殊处理。但是在这篇论文中，作者们发现：initial phase 在类增量学习的过程中同样关键。

作者们通过可视化发现，一个仅在 initial phase 训练得到的模型与 joint training 的 oracle model 输出的表征的最大区别是：initial-phase-model 的 representation 的分布只会集中在 representation space 的一个狭长的区域（即一个维度较低的子空间），而 oracle model 的 representation 将较为均匀的分布于各个方向（即一个维度相对较高的子空间）。这一结果如图（a）（b）所示。

基于这一发现，作者们提出了一个新颖的正则项：Class-wise Decorrelation （CwD） 。这一正则项只作用于 initial phase 的训练过程，目的是使得 initial phase 学习得到的模型的 representation 在空间中的分布能够在各个方向更加均匀，从而能够与 oracle model 更加相似。这一结果如图（c）所示。

作者们发现 CwD 正则项能够对以往的 state-of-the-arts 的类增量学习方法有显著的提升（1%～ 3%）。希望通过这一工作，能够让科研社区同仁更了解 initial phase 在类增量学习中的意义，从而更加关注如何在 initial phase 提升类增量学习。

arxiv: arxiv.org/abs/2112.04…

code: github.com/Yujun-Shi/C…

DINE: 基于单个或者多个黑盒源模型的域自适应 / DINE: Domain Adaptation from Single and Multiple Black-box Predictors

这篇工作由字节跳动与中科院自动化所、新加坡国立大学合作完成。

论文作者提出了一种只需要预训练好的黑盒源域模型就可以有效进行无监督视觉域自适应的方法。不同于以往的基于源域数据或者白盒源域模型（模型参数可见）的域自适应，在黑盒域自适应问题中，只有源域模型的预测可见。作者提出了先蒸馏再微调的方法 （DINE） 来解决这一问题。在蒸馏阶段，作者利用自适应标签平滑的策略，只需要源模型的前 k 个预测值，即可得到有效的伪标签，用于单个样本的知识蒸馏。

此外，作者利用样本混合策略来实现样本之间随机插值的一致正则化，以及利用互信息最大化实现对于全局样本的正则化。为了能学到更适合目标域数据的模型，作者在微调阶段只利用互信息最大化对蒸馏之后的模型进行微调。DINE 可以利用单个或多个源模型，保护了源域的信息安全，且不要求跨域的网络结构一致，能针对目标域的计算资源情况实现简单而有效的自适应。在多个场景如单源、多源和部分集域自适应上的实验结果证实，与基于源域数据的域自适应方法相比，DINE 均获得了极具竞争力的性能。

arxiv: arxiv.org/abs/2104.01…

code: github.com/tim-learn/D…

NightLab: 基于检测的双层结构耦合的夜景分割方法 / NightLab: A Dual-level Architecture with Hardness Detection for Segmentation at Night

这篇论文由字节跳动和加州大学美熹徳分校合作完成。

夜景的语义分割是许多视觉应用中重要且具有挑战性的一个研究问题，例如自动驾驶。但是目前的研究对夜景分割的研发比较有限。由于夜晚的低曝光度，获取的图像会丢失很多信息导致存在很多漆黑模糊的图像区域。此外，由于夜晚的图像依赖于其他光源的照明，因此图像和图像之间的曝光差异也比较显著。和白天的数据相比，夜景分割存在着很多未被探索的挑战。相同的模型在白天的数据上可以获得很好的表现，但是在夜晚的数据上却表现很差。这驱使我们去探索影响夜景分割的主要因素以及有效的模型研发。

为了解决以上的问题，本文提出了 NightLab 一种集成多种深度学习模块的夜景分割方法。NightLab 具有更好夜间感知和分析能力。其主要包含两种颗粒度级别的模型，即全图和区域级别，每个级别的模型都是由光适应和分割模块构成的。给定夜间图像，全图级别的模型会提供一个初始分割结果，同时，NightLab 会用到检测的模型去提供一些图中比较难识别的区域。这些难识别的区域对应的图像，会被区域级别的模型进行进一步的分析。区域级模型会专注于这些难识别的区域去改善分割结果。NightLab 中的所有模型都是端到端训练的。本文做了大量的实验证明了提出的 NightLab 在 NightCity 和 BDD100K 公开数据集中达到了 SoTA。

智能创作团队介绍

智能创作团队是字节跳动音视频创新技术和业务中台，覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域，在部门内部实现了前沿算法—工程系统—产品全链路的闭环，旨在以多种形式向公司内部各业务线以及外部合作客户提供业界最前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前，智能创作团队已通过字节跳动旗下的火山引擎向企业开放技术能力和服务。