StyleGANの概要|SOTAメソッドとアーキテクチャの新しい進歩の包括的な理解

はじめにStyleGANのアーキテクチャ、方法、およびアプリケーションの最新の進歩を理解するための1つの記事

機械の心臓部から転載

コンピュータビジョンの技術概要、最新の技術追跡、古典的な論文の解釈、およびCV採用情報に焦点を当てた、パブリックアカウントCVテクニカルガイドへようこそ。

高解像度画像を生成するGANの機能は、画像の合成と処理の分野に革命をもたらしています。2019年、Karrasらは画像合成の最前線に立ち、最先端の高品質画像ジェネレーターとして認められているStyleGANを提案しました。まず、StyleGANの合成効果を見てみましょう。

StyleGANは教師なしですが、その潜在的なスペースは驚くほどうまく機能します。StyleGANは非常に優れたパフォーマンスを発揮し、線形潜在アルゴリズムもサポートしていることがわかります。たとえば、年齢を表すベクトルを潜在コードのセットに追加して、画像内で人々をより年上に見せることをサポートします。調査によると、StyleGANは潜在空間を直線的に配置できるだけでなく、解きほぐして配置することもでき、そのトラバース方向は特定の画像プロパティのみを変更し、他のプロパティには影響を与えません。これらの属性には、グローバルなドメインに依存しない側面(視点など)だけでなく、顔の表情や性別、車の色、犬の品種などのドメイン固有の属性も含まれます(図1および2を参照)。

この記事では、テルアビブ大学の研究者がStyleGANの現在の成功について説明し、その深刻な欠点を分析します。この調査は、ネットワークアーキテクチャ自体について説明することから始まり、StyleGANが開始以来高度な生成モデルで果たしてきた役割を分析します。その後、この調査では、StyleGANのトレーニングに必要なリソースについて説明し、これらのリソースを削減、再利用、およびリサイクルするいくつかの調査をリストします。

紙のアドレス:arxiv.org/pdf/2202.14…

StyleGANのアーキテクチャ、メソッド、およびアプリケーションの最先端

このホワイトペーパーは8つのサブセクションに分かれています。セクション2では、StyleGANのアーキテクチャがどのように構築されているかを説明し、このアーキテクチャがこのような最先端のテクノロジーにつながった理由と、特定の要件を満たすためにアーキテクチャを改善する方法を理解しようとします。ニーズ。

第 3 节讨论了 StyleGAN 的潜在空间,展示了研究者如何找到线性编辑方向并将其用于强大的语义编辑。传统上一般的 GAN,特别是 StyleGAN,可用于简单地生成不同风格的图像。这些可以作为下游训练的一种数据增强形式(参见第 6 节)。然而,研究已经表明 GAN 倾向于平滑地排列其潜在空间,即潜在空间中的接近区域描绘出相似的图像。

第 4 节主要讨论了 StyleGAN 逆映射(inversion)。为了在 StyleGAN 域中表达给定的真实图像,研究者提出了许多不同的方法,所有这些方法都深入分析和利用了生成器架构。一些研究者提出了潜在代码优化,应用数据驱动推理等不同方法,或者寻求适当的输入种子向量,还有一些研究在推理路径的其他点与 StyleGAN 交互,从而大大提高了网络表达能力。StyleGAN 潜在空间的良好行为性质在远离其良好采样分布的区域中会减少。这在实践中意味着给定真实图像,其重建质量(或失真)是以可编辑性为代价的。在这种重建 - 可编辑性权衡中找到不同的期望点是本节主要讨论点。

将图像编码到 StyleGAN 潜在空间比图像逆映射本身具有更多优点。在许多应用程序中,被编码的图像不是所需的潜在代码应该表示的图像。这种编码允许各种图像到图像的转换方法。在第 4 节中,该研究介绍并讨论了这种有监督和无监督的方法。

在第 6 节中,该研究展示了 StyleGAN 生成能力,并讨论了 StyleGAN 可以利用的判别能力,这包括可解释性、回归、分割等方面的应用。

在大多数工作和应用中,预训练 StyleGAN 生成器保持固定。然而,在第 7 节中,该研究展示了微调 StyleGAN 生成器并修改其权重以弥合训练域(域内)或目标域之间的差距的最新工作。每个部分都针对新手以及经验丰富的研究者,并总结了最成熟和最有前途的方法,以及如何使用它们。

下面我们将介绍论文中部分章节内容。

StyleGAN 架构的发展

StyleGAN1。基于风格的生成器架构,或简称 StyleGAN,最初由 Karras 等人在 2019 年提出。StyleGAN 架构的核心是风格调制层(style modulation layers),StyleGAN 的名字就是从这里得来的, 其能够生成高质量的图像数据并且做到了高层特征可控。

StyleGAN2。随着 StyleGAN 广泛使用,模型固有的缺点暴露出来,例如伪影问题。此外,研究者还观察到一种纹理粘附效应,即生成图像的某些属性,如牙齿或眼睛,会显示出强烈的空间偏差,即使通过潜在空间插值也难以解决。在后续工作中,Karras 等人的研究可以识别伪影来源,并重新设计算法以改进网络,StyleGAN2 着重处理 StyleGAN 伪影问题,能够生成质量更好的图像数据。

StyleGAN3。起初,StyleGAN2 似乎解决了纹理粘连问题。然而,研究者通过细致的分析发现,StyleGAN2 虽然已经解决了嘴巴或眼睛等大尺寸物体,但在检查头发或胡须等更精细的细节时仍然存在问题。为了解决这个问题,Karras 等人寻找空间信息可能泄漏到卷积操作中的各种来源,目的是完全恢复网络的平移不变性。StyleGAN3 的新颖架构 [Karras et al. 2021] 带来了显着的改进,使得插值更加平滑。

StyleGAN3 对生成细节的把控令人惊叹,它从根本上解决了 StyleGAN2 图像坐标与特征粘连的问题,实现了真正的图像平移、旋转等不变性,大幅提高了图像合成质量。

当然,训练模型离不开数据,当代机器学习一个公开秘密是,许多模型在标准基准上表现出色,但无法推广到实验室外,StyleGAN 也不例外。在 StyleGAN 中,学习域似乎需要严格的结构,而数据域应该是凸的,即在每两个点之间应该有有效的样本进行插值 。在最近的研究中,Sauer 等人证明,通过扩展模型可以克服数据面临的挑战,但 StyleGAN 独特的潜在空间属性是否能通过这种修改持续存在仍是一个悬而未决的问题。将来,我们可能会看到更多解决显式数据问题的工作,即尝试将 StyleGAN 应用于其他类型数据的工作,或者通过在训练期间删除或添加示例以使数据的 landscape 更加平滑,或者用更直接地方式处理数据中的多模态,或者通过将更精细的注意力机制整合到架构中。

与普通的 GAN 不同,StyleGAN 有不止一个固有的潜在空间。此外,为了增加 StyleGAN 的表现力,通常会使用这些空间的扩展,如图 6。

潜在空间编辑

也许 GAN 学习最令人兴奋的方面是潜在空间排列方式。传统上,一般的 GAN,特别是 StyleGAN,可以用来简单地生成各种各样的同类图像。这些可以作为下游训练数据增强的一种形式 (见第 6 节)。然而,已有研究表明,GAN 倾向于平滑地排列其潜在空间,即潜在空间中的封闭区域描绘相似的图像。

事实证明,在潜在空间中遍历也可以得到所需的语义变化。这些变化包括视点、照明条件和特定于领域的属性(如人脸的表情、汽车的颜色或建筑物的宽度)的变化。当然,最理想的编辑是解耦编辑,即那些改变一个属性而不影响其他属性的编辑。这样强大的编辑工具的应用是无止境的,从自动添加微笑到面部图像,通过室内设计探索,快速的汽车设计。

StyleGAN 在结构良好的数据上运行得最好,当对这些数据进行训练时,StyleGAN 以一种无监督的方式构建了一个高度解耦的潜在空间,仅仅凭借归纳偏差。在本研究中,编辑艺术是多样化的,呈现出从不同领域借来的创造性方法。

应用

虽然 GAN 具有很强的生成能力,尤其是 StyleGAN,但人们可能会问,使用 GAN 可以解决哪些非生成任务。在其最基本的形式中,GAN 生成大量图像的能力,基本上都是从相同的目标分布重新采样的,可用于下游训练任务的数据丰富和增强。事实上,早期研究提出使用 GAN 作为增强工具来生成更多的训练数。

利用 GAN 的编辑能力,Chai 等人通过在测试时增强输入图像,提出了一种用于图像分类的集成方法。输入被投影到预训练生成器的潜在空间中,并对其应用风格混合等编辑操作,生成不同的视图。之后生成的图像输入分类网络,模型的最终预测基于对所有图像的网络预测的集合。与深度学习中的传统集成不同,其中多个模型的预测被组合以产生最终结果,该方法建议使用同一图像的不同视图(同时保留其身份)并在测试时集成分类器对图像的预测。

为了以新的方式利用 StyleGAN 的语义理解,Peebles 等人提出了一种新的框架来处理密集视觉对齐的任务。如图 11c 所示。一旦两种操作收敛到一个视点,就可以使用 STN 来对齐真实图像。

另一个关键方面是避免扭曲图像的未编辑部分,通常称为保留原始身份。例如,对人脸微笑的编辑不应改变发型等属性。一些研究专注于面部图像,其中可以使用面部识别网络评估身份。

另一个问题是图像质量。StyleGAN 的主要优势之一是高质量的视觉效果,编辑方法应该致力于保持这种效果。然而,编辑可能会导致编辑后的数据与真实数据之间存在较大的偏差,从而导致评估不准确。如果可能,可以使用分类器或回归模型来平衡图像集合与某些属性之间的关系。Zhu 等人提出了评估插值质量方法,他们建议,即使对于插值图像,良好的可编辑性也应该保留 StyleGAN 的高质量,他们使用 FID 度量。最后,一些研究利用用户研究来评估编辑质量,尽管这种方法对编辑过程有深刻的理解,但它会消耗大量资源并且容易受到不必要的操作。直到今天,对于潜在的操作质量,还没有被广泛接受的评估指标。

更多细节,请查看原论文。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

​​

其它文章

一份热力图可视化代码使用教程

一份可视化特征图的代码

从零搭建Pytorch模型教程(二)搭建网络

从零搭建Pytorch模型教程(一)数据读取

工业图像异常检测研究总结(2019-2020)

小样本学习研究综述(中科院计算所)

目标检测中正负样本区分策略和平衡策略总结

目标检测中的框位置优化总结

目标检测、实例分割、多目标跟踪的Anchor-free应用方法总结

ICLR2022 | cosformer : 重新思考在注意力中的softmax

ICLR2022 | ViDT: 一个有效且高效的纯transformer目标检测器

关于快速学习一项新技术或新领域的一些个人思维习惯与思想总结

Panoptic SegFormer:端到端的 Transformer 全景分割通用框架

CVPR2021 | TrivialAugment:不用调优的SOTA数据增强策略

ICCV2021 | 简单有效的长尾视觉识别新方案:蒸馏自监督(SSD)

AAAI2021 | 任意方向目标检测中的动态Anchor学习

ICCV2021 | 用于视觉跟踪的学习时空型transformer

ICCV2021 | 渐进采样式Vision Transformer

MobileVIT:轻量级视觉Transformer+移动端部署

CVPR2022 | 单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳

おすすめ

転載: juejin.im/post/7082585204044349454