[Style Transfer]——Neural Style Transfer: A Review

Neural Style Transfer: A Review

Abstract

Gatys等的工作展示了CNN用于艺术创作方面迷人的一面,这种将图像渲染成不同艺术风格的行为称为风格迁移9Neural Style Transfer,NST).本文旨在对NST的相关研究进展进行综述,在总结各种NST算法的基础上对每种方法进行定性/定量的分析。涉及到的论文及源码可参考:
Reference

Section I Introduction

绘画是一种艺术创作,千百年来人们为一些伟大的艺术创作所倾倒,如梵高的星空,但对画作进行特定风格的再现需要专业训练的画家完成;不仅如此也吸引了计算机科学家,来探究如何进行画作的艺术生成。
其中非真实性渲染(non-photorealistic rendering)在计算机图形学中广泛使用,但它们大多为某一种特定艺术风格设计的;而风格迁移解决的是一类通用问题,通过纹理特征的学习将图像从源域转换至目标风格域。
早期Hertzman等人的工作聚焦于提取低级特征有时不能很好捕获图像结构。近年来借助CNN的强大学习能力,Gatys等人率先使用CNN完成自然图像的风格迁移,通过与各预训练的CNN提取图像的内容表征和风格表征,通过迭代优化内容损失函数和风格损失函数最总完成图像的风格迁移。Fig1展示了一张将长城迁移成国画《富春山居图》的风格,Gatys的工作打破了以往CNN训练需要GT等一系列界限,完成的是各种风格的迁移,因此成为神经网络风格迁移这一领域的开山之作。
在这里插入图片描述
随后研究人员又基于Gatys的工作做了一系列的改进,无论是学术界还是工业界,本文旨在将NST的相关发展做一个综述(DDL到2018年3月)。主要工作有以下3方面

(1)总结NST相关算法

(2)提出不同NST算法之间的一些评价方法/评价指标

(3)总结NST领域存在的挑战及未来可探索的方向

Section II回顾了非真实性渲染的相关内容;

Section III介绍了NST的相关基础;

Section IV分类总结NST算法;

Section V是基础算法相关的一些改进;

Section VI介绍了NST相关的评价指标;

Section VII是NST的相关应用;

Section VIII是NST面临的挑战,最后Section VIIII总结全文。

Section II Non-Photorealistic Rendering
艺术风格化有光感的应用场景,也是一直以来的一个研究领域,在CNN出现前主要通过NPR完成,对于二D图像主要是基于图像的艺术渲染(image-based artictic rendering,IB-AR),有以下分类:

Stroke-Based Redenring:通过设置不同的虚拟stroke来将照片匹配到固定风格上,缺点就是stroke只为某一种风格设计,灵活性较差。

Region based technique:区域渲染法会先将图片分割成不同区域,不同语义区域内使用不同的stroke进行渲染;region based的限制在于单一区域无法完成任意艺术风格的渲染。

Example-baed Rendering:example-based方法基于图像对进行图像类比,通过监督学习原图像与目标风格图像的图像对完成风格变换,这样适合于多种艺术风格;但实际应用中成对的训练数据往往不好获取,以及提取的通常是图像低级特征,不能有效提取到内容或风格信息,限制了实际性能

Image Processed and Filtering:使用不同的filtering也可以完成图像的渲染,但只能完成有限的一些风格。
基于以上讨论可以看出虽然无需CNN辅助的IB-AR算法可以完成艺术渲染,但在灵活性、风格多样性、特征提取有效性上有诸多限制,为了解决以上问题,提出Neural Style Transfer。

Section III Basics of Style Transfer

为了更好的了解NST的发展,有必要介绍一下NST的起源,为了能够自动化完成风格迁移,重中之重是如何建模以及从图片中提取风格信息。因为风格和纹理特征关联紧密,因此退回到纹理识别上来获取风格表彰;接下来的问题是如何保留图像内容的基础上重建至目标风格,需要Image Reconstruction。


Part A Visual Texture Modeling



如何进行纹理合成需要图像纹理建模,有两种方式:基于统计分布的参数化纹理建模(Parametric Texture Modelling with Summary Statistics)和基于马尔科夫随机场的非参数化纹理建模(Non-parametric Texture Modelling with Markov Random Fields)


Parametric Texture Modelling with Summary Statistics:最先由Jules提出,将图像的纹理特征看做像素点的N阶统计量,而Gatys则首次用CNN来建模,通过计算Gram矩阵来表征纹理模型,编码的是二阶信息


在这里插入图片描述
通过CNN提取的信息进行GramMatrix计算可以完成自然或非自然纹理特征的建模,然而Gram计算的是全局的一种布局而不利于捕获长程依赖的对称关系,也有学者针对此问题进行了改进,将feature map在水平和垂直方向上都进行delta的翻转来解决对称这一问题。
Non-parametric Texture Modelling with MRFs:非参数建模则认为纹理图像中像素值与其近邻相关,基于以上假设Leung提出来了通过搜索近邻像素值为原图中像素点赋值。
Part B Image Reconstruction
许多视觉任务中需要从输入图像中提取抽象特征,图像重建与此相反,探究的是如何根据提取的特征复原输入图像,因此就需要理解提取到的抽象特征包含哪些内容和信息。基于CNN提取到的特征进行图像复原的算法主要有:
Image Optimization Based On-line Image Reconstruction(IOB-IR)和
Model-Optimization Based Offline Reconstruction(MOB-IR)。
IOB-IR会迭代优化整张图直至产生的特征表达与原始的特征表达相近,但这种方法在复原较大图像时耗费时间较久;
MOB-IR会提前训练好前馈网络然后把计算放在训练阶段,测试阶段完成reverse从而提升了效率,还可以结合GAN提升性能。

Section IV Neural Style Transfer Algorithm

Neural Style Transfer是前述IB-AR方法中的一种,本章主要分类介绍2D图像相关的风格迁移算法、算法的特点、局限性。
风格迁移一个很大的不确定性在于“风格”的定义,如何评估一个算法进行的风格迁移是否成功,更关注于细节?语义信息?等都会影响到算法的评估。
本文将NST算法分为IOB-NST和MOB-NST两类,
IOB-NST:通过迭代优化图像完成风格迁移[慢速];
MOB-NST:通过线下优化生成模型[快速],仅通过一次前馈过程完成风格图像的生成。详情参见Fig2。
在这里插入图片描述Part A IOB-NST

Deepdream为IOB-NST相关研究奠定了基础,IOB-IR的基本思路是首先提取风格图像和内容图像的特征,将二者结合获得目标特征描述;随后迭代优化重建后的图片。IOB-NST的局限性在于迭代优化导致的高昂计算成本。
** 1.Parametric Neural Methods with Summary Statistics
Gatys**
通过VGG-19中间层提取到的特征进行图像的重迁移,属于基于统计分布的参数化图像迁移算法,通过优化内容损失函数和风格损失函数使得最终重建的图像兼具二者的特征。
在这里插入图片描述通过调节alpha和beta权重因子还可以调节侧重点是更注重内容还是风格。
在风格迁移过程中对于content和style的层次选择十分重要,选择不同层、每层中的不同数目filter都会对最终结果有很大的影响。在Gatys的工作中,style选取了{relu1_1,relu12_1,relu3_1,relu4_1,relu5_1},可以看到在风格内容选取了多层次的信息,这是Gatys工作成功的关键,使得最终的风格更加平滑、连续;content选取了较高层次的relu4_2,而不是低层次信息,往往包含许多细节,但为了风格上贴近有时候需要修改具体content的内容。
Gatys的算法实现训练时并不需要ground truth也没有太多风格图像类型的约束,与之前的IB-AR算法形成了鲜明对比。
但是Gatys的算法仍有一定局限性,没能很好的保留图片的细节信息,因为CNN不可避免的丢弃了一些底层信息,而Gram Matrix作为特征表述也不适于真实渲染,还没有考虑内容图片中的语义信息等,这些都是影响呈现效果的重要因素。
除了Gram Matrix,还有其他纹理表征的方法,如Domain Adaption。域迁移的训练和测试数据常分属于不同分布,通过对源域有标签数据的学习,对目标域无标签数据进行预测,通过最小化Maximum Mean Discrepancy(MMD)使得目标域与源域的数据分布建立起一种映射关系。
在NST中则是最小化风格图和重构图两个域的MMD,使得重建图的特征分布尽可能与风格图的分布相近,从而达到风格迁移的效果。
在这里插入图片描述但GramMatrix的局限性在于训练的不稳定性,需要仔细繁琐的调参,因为有学者发现对于不同的特征激活仍可能有相同的Gram矩阵,因此Risser等人提出根据特征的直方图统计来进行优化。
通过匹配特征激活的直方图可以使得训练更稳定,迭代次数也减少了,代价就是进一步增加了计算开销,此外Gatys算法中未考虑深度、细节的问题也没有改善。
上述基于CNN的算法不可避免丢失了细节信息,有时会导致图像或结构的失真,有学者引入额外的约束保留保留低层次信息,这样在风格迁移的同时可以更好的保留原图细节。
2.Non-parametric Neural Methods with MRFs

基于MRFs的非参数方法通过切patch并匹配的方法完成风格转移,通过将重建图切patch,对每一个patch进行优化和逼近,这样可以更好的保留局部细节信息。此类算法更适于content和style相似的情况。
Part B MOB-NST

IOB-NST的限制因素在于效率不高,耗费大量计算资源。而MOB-NST通过离线训练网络,实际使用仅通过前馈网络完成图像重建,这样借助预先训练的网络来解决计算量大、效率低的问题。根据能够迁移的风格种类,还可以进一步细分为:
PerStylePerModel,
MultipleStylePerModel和
ArbitraryStylePerModel.

1.Per-Style-Per-Model(PSPM NST)

PSPM中每次预训练好一个网络,测试时图片经过前馈网络后得到重建后的图片。早期的两次尝试区别仅在于网络结构的不同,最大的好处是可以满足实时的风格迁移,还有研究发现加入BN会对风格迁移效果有显著提升,收敛的也更快。这种对单张图片进行归一化的操作叫做instance normalization(IN),其实就相当于batch=1的BN。一种可能的解释是IN是风格归一化的一种形式,可以直接将每一张内容图像归一到某种风格上,网络的其他部分用来优化contentloss。

也有基于非参数化的PSPM算法,通过对生成图切分patch的策略选取在纹理特征上一致性最好的重建图像,但这种算法对于一些纹理特征不明显的图片(如面部图片)效果不佳。
2.Multiple-Style-Per-Model(MSPM NST)

上述PSPM模型已经比IOB-NST类方法运行时间上提升了两个数量级,但是每次只能进行一种风格的迁移极不灵活,如果要完成多种风格迁移还要训练许多冗余的网络,因此MSPM应运而生,将多种风格模型集成到一个网络中。实现思路有两种:一种是将每一种风格域网络中很少一部分参数绑定,不同风格的训练就是去训练相关的这部分参数即可;另一种是将风格和内容均作为网络输入。
2.1 Tying only a small number of parameters to each style.
相关工作为IN的提出以及Ref[53].Dumoulin等人发现对于同一层卷积参数,只需要对IN层参数进行缩放或平移就可实现不同风格的建模,为此他们提出了conditional instance normalization(CIN)算法:
在这里插入图片描述其中F为特征激活值,s为对应某种风格的指数,通过不同程度的缩放实现不同风格的建模。
Chen的StyleBank相关工作也体现了这一思想,将风格域内容解耦,使用不同的网络来学习各系的信息,对于风格网络中的一些层与某种风格绑定,单独进行学习,绑定的相关层被称为“StyleBank”;这种方法还可以固定内容部分,单独对风格部分相关的层进行训练。
上述两种MSPM的实现都可以完成不同风格的学习,效率更加,但依旧没有解决NST的限制问题:缺少深层西、语义信息的参与。
2.2Combining both style and content as inputs
2.1方法的局限性在于,随着风格类型的增多网络规模会越来越大,因此Combining both style and content as inputs通过把内容信息和风格信息均作为输出,会尽可能挖掘单一网络的学习能力完成风格迁移。因此可以看出,两种方法的不同之处在于如何将风格信息纳入到网络之中。
[55]对于N种风格类型,设计了一个选择单元来决定风格化成那种效果,通过从风格分布中随机采样得到初始的输入风格向量,与内容向量一通作为王珞丹额输入,最后经过网络编码解码得到最终的风格化图像。这样就有效解决了多种风格类型导致网络规模过大的问题。
2.3Arbitrary Style Per Model (ASPM NST)

ASPM可通过单一网络实现任意风格的迁移,有基于非参数化和参数化的两种实现。


**(1)Non-parametric ASPM**


[57]将预训练VGG网络中一些层的内容和风格激活图切成一系列patch,随后将最相近的content patch和stylepatch交换,称之为(style swap),交换后在进行图像重建。但这种算法最终的实现效果有些差强人意,认为交换的styleswap与目标style还存在较大的差距,仅在content方面得到了较好的保留。



**(2)Parametric ASPM**
对于任意风格的迁移最简单的方法就是单独训练一个网络P完成风格style参数的预测,确定了风格迁移的参数就可以进行该种风格的迁移,但需要大量训练数据的参与。

Section V Improvements and Extensions

NST算法的改进延伸从以下方面展开:控制style的相关参数、特定类型的风格迁移(涂鸦、肖像、视频流)甚至音频等。
Part A Controlling Perceptual Factors
Gatys在自身工作上组进一步延伸提出了一种风格空间控制策略来调控不同区域的风格,引入了guidance channel通过[0,1]值来决定将哪种风格迁移至哪块region;
对stroke size的调控则更为复杂,不同的size会使得最后额风格化效果有较大的不同。
对于IOB-NST目前只能通过缩放style image实现不同stroke size;对于MOB-NST可以将原图输入网络前缩放成不同大小,也可以训练过程中使用不同scale的style image;而ASPM不可避免需要在speed和quality之间做trader off。
Jing[61]等人首次实现单个网络可调多种stroke size,较好的解决了效率和图像质量的问题。
对于分辨率较高的图像,IOB-NAT仅仅将style image放大是远远不够的,更常见的是通过一种由粗到细的策略经过一系列子网络,每个子网络接受前一级上采样的风格化输出,逐渐获得精细的风格化图像。
而MOB-NST的实现方法与IOB类似。
Part B Semantic Style Transfer
对于两张在内容上较为相似的content image和style image,语义风格迁移主要是建立二者之间的语义关联,将每一块风格区域与语义相近的content image进行匹配,这样就完成了相似语义内容区域的风格转换。主要有两种,一种基于图像进行,需要提供标注信息或通过分割网络了得到区域划分;第二种是基于模型进行,但效率是一大限制因素。
Part C **
Instance Style Transfer
实例风格迁移基于实例分割,将某一实例分割的结果进行风格迁移,难点在于如何处理与不需要风格化的背景的边缘,比如增加额外的loss平滑边界。
Doodle Style Transfer **
NST还有一个有趣的应用就是将涂鸦速写变成精制的艺术风格化作,将content loss替换为doodle的分割结果即可。
Stereoscopic Style Transfer
为了实现AR/VR,有研究者实现了立体效果的风格迁移,[72]提出了视差损失(disparity loss)可以依据不同视角实现风格化。
Portrait Style Transfer
如果直接将现有的NST算法用于肖像的风格化会导致面部变形失真,[73]增加了空间上的约束在风格化的同时保留面部结构。
Video Style Transfer
视频流的NST在Gatys对静止图像的NST算法提出后不就就提出了,但不同之处在于需要将临近帧之间以较为平滑的方式自然过渡,也有两类:基于Image和基于Model的实现方法。
(1)Image Optimisation based Online Video Style Transfer

Ruder基于光流法第一个实现了视频流的风格迁移,引入了时间一致性损失函数(temporal consistency loss)使得不同帧风格化后的过渡更平滑,但需要数分钟才能完成一帧的风格化。


(2)Model Optimisation based Offline Video Style Transfer


Huang[78]等人基于PSPM实现的,对于连续的两帧图像分别送入风格迁移网络,将得到的输出计算一致性损失从而保证像素级别的一致性;[80]则是使用了一个子网络产生特征,结合光流信息一同送入编解码结构的风格迁移网络。

Character Style Transfer



字母的风格迁移则是产生新的字体或文本效果,最新研究有基于cGAN完成象形文字预测,再使用一个修饰网络完成颜色、纹理的预测。两个网络联合训练。


Photorealistic Style Transfer
真实风格迁移旨在将颜色分布实现迁移而保留原图的全部内容信息,不需要引入失真。依旧是分为Image Based 和 Model Based。
IOB:[84]等人最早使用一种二阶段的网络,阶段一完成风格迁移阶段二去除失真信息,但计算成本十分高昂。
MOB:[86]也分两步走:stylisation steo和smoothing step,为了提升效率将[59]NST中的上采样层替换为unpooling层,smoothing step进一步去除失真和伪影.
Fashion Style Transfer
款式风格迁移旨在将一系列服装风格化成不同的流行样式,在保留衣服细节的基础上将衣服渲染成制定的流行风格,[89]提出通过一系列流行款式的生成器和判别器来实现这一任务。
Audio Style Transfer
除了图像的风格迁移,还可以对声音合成出特定的音效,也遵循风格迁移的两种实现路线:Audio-based和Model Based.

Section VI Evaluation Methodology

NST的迁移效果目前仍没有一个统一的评价指标,是一个开放的问题,主要从两方面评估:迁移质量和迁移效率。迁移质量通常来自于观察者的评价,因此与观测者的年龄、职业等主观因素有关;而效率则可以通过明确的评估矩阵从时间复杂性、损失多样性等方面进行评估。
Part A Dataset
对于风格图像选取10张,内容图像选取了20类。Style Image艺术风格涵盖了印象主义、立体主义、抽象主义、现代主义、超现实主义、表现主义等,Fig4展现了一些示例,有的是花在画布上,有的则是画在纸板、涤纶材料的。
对于content image选取了Mould&Rosin工作中选用的benchmark-NPReneral;而对于Off-line模型的训练数据使用的则是MS-COCO数据集来进行模型的预训练。
在这里插入图片描述
为了对比的更加公平,基于以下原则:
(1)几乎完全按照各算法的原始实验设定;
(2)但不同算法中content和weight的权重会显著影响最后的风格化效果,本文处于最佳的效果选择不同算法中各自的权重
(3)尽可能使用各算法原始的实验参数、设置等;对于特点算法的细节部分,还有:
在这里插入图片描述Part B Qualitative Evaluation
Fig5,Fig7,Fig9可视化了部分风格化结果。其中Fig5展示了IOB-NST算法和PSPM-MOB-NST部分算法的结果,content image来自于[92] [93].Fig7展示的是MSPM-MOB-NST算法的风格化结果,Fig9是ASPM-MOB-NST算法的结果。
在这里插入图片描述IOB-NST以在线方式进行风格迁移,计算成本较高但实际风格化效果更好,一般将Gatys的算法生成结果作为金标准。PSPM中每种模型只适合一种风格的迁移,可以看到Ulyanov和Johnson两位的迁移结果视觉上较为接近,而Li和Wang的迁移效果视觉上稍弱。虽然GAN的训练一定程度上增加了不稳定性,但本文认为GAN依旧是实现NST一个十分有前景的方向和手段。

在这里插入图片描述
而Fig7MSPM可通过一个网络实现多种风格迁移,比如Dumoulin和Chen的工作中每种风格设定了相似数量的参数,因此钱以后的效果也比较相近;但问题前文也明确过不可避免增大了网络规模。在这里插入图片描述ASPM结果可以看到不如前面的迁移结果那么逼真,但情有可原,毕竟是权衡了速度、灵活性、图像质量各方面之后的结果。任意风格生成中Chen和Schmidt是基于patch实现的,看起来似乎对style信息纳入不足;Ghiasi是数据驱动型算法因此迁移效果很大程度上取决于每种风格训练时的数据量;Huang和Belong的算法基于统计信息也因此视觉效果最佳,但看起来似乎对复杂的模式能力不足。
Saliency Compparison
显著性对比
NST是一个艺术创作过程,而对于风格的定义,主观上十分复杂,有的观测者可能认为某种生成风格十分成功有的评价则截然相反,而本文的目标在于尽可能客观的对各种算法进行对比分析,因此本文决定根据不同算法的saliency maps 进行对比分析,IOB-NST\PSPM-MOB-NST\MSPM-MOB-NST分别对应于Fig6\Fig8\Fig10.通过显著性图谱分析可以看到MSPM类算法具有更佳的显著一致性。
在这里插入图片描述在这里插入图片描述在这里插入图片描述
Part C Quantitative Evaluation
定量分析关注以下5个指标:单张内容图不同规格的生成时间、单个模型的训练时间、内容图片的平均损失(衡量损失函数是如何优化的)、训练过程中的损失变化(反映模型的收敛情况)、风格图的可扩展性。
(1)Stylisation speed
主要是为了评测MOB系列算法的效率,TableII展示了生成100张三种不同分辨率(256,512,1024)的风格化图像所需的平均时间,第五列展示的是每种算法能生成几种style。
在这里插入图片描述可以看到除了[57][59]其他MOB-NST的算法可以达到实时性的要求,而ASPM往往比PSPM和MSPM更慢,也是前面提及的权衡三方面因素的结果。
(2)Training Time
模型的训练时间也十分重要,但不同算法的训练时间十分不好对比,有的模型迭代数次就可达到较好的生成效果,因此本文对训练时间的对比只能作为一种参考。详细信息为:
Johnson[47] 3.5h
Ulyanov[48] 3.0h
Li[52] 2.0h
Chen[57]/[51]时间更久
(3)Loss comparison
通过loss曲线的变化可以看到网络的收敛情况:
在这里插入图片描述
(4)Style scalability
风格迁移的可扩展性也是MSPM一个重要的考量方面,但也不好衡量,因为不同算法的模型只与几种风格相关,详情参见Table III.
在这里插入图片描述E,AS,LF分别对应于Efficient,Arbitrary Style和Learning-Free,其中Gatys的结果通常作为生成的金标准,而PSPM中对比了[4][50][52],MSPM类算法普遍模型比较大,ASPM的生成效果不若PSPM和MSPM逼真。

Section VII Applications

Part A Social Communication
风格迁移如此受到学术界和工业界青睐的原因之一是其在社交网站中的流行,比如脸书、推特,最近新兴的一款移动应用Prisma因为风格化效果好在世界范围内受到追捧,也为一些厂商带来利润,比如Ostagram的用户付费后可以提速,加速获取风格化图像。
NST在社交网络中的应用也反过来促进了相关算法的推进,比如用户使用NST的反馈可以帮助进一步改进算法,为了满足实时性的要求,FAIR研发出了一款新的嵌入式深度学习框架Cafe2Go以及Caffe2。
Part B User-Assisten Creation Tools
NST还可作为用户辅助创作工具,可以为设计师、建筑师们提供风格化后的图像辅助设计,减轻工作量,提升工作效率。
Part C Production Tools for Entertainment Applications
NST还可用于辅助影视娱乐作品的创作,比如动画创作每秒需要8-24帧,如果借助NST自动生成动画风格将大大降低创作成本和时间成本;还可用于电影、游戏。这方面已有成功的尝试,如[106]用于3D渲染。

Section VIII Future Challenges

NST相关算法的发展和业界应用显示了NST广阔的发展前景,但NST还存在一些挑战以及值得探讨的问题。以及NST与NPR的向关联性,存在一些共通的局限,因此本节会先讨论二者共通的限制问题,随后讨论NST自身亟待解决的问题。
Part A Evaluation Methodology
对于美学、艺术性效果的评价在NPR,NST领域都十分重要,学者们需要根据一些可靠的可信的指标来评估自己提出的算法、达到的性能。但目前大多数相关工作的评估都具有一定的主观性,比如[59]使用的是观众投票的结果,但这并不是最佳的评估方法,因为一千个人眼中有一千个哈姆雷特。
本文也进行了一个用户调查,选取同年龄同职业的4名男性4名女性对风格化的结果进行评分,我们发现即使背景相似的人打分、评判也各不相同。因此,对风格化后的图像如何评判依然是一个开放性的问题,需要专业的机构联合相关艺术方面的专家共同评判。
NST还没有标准的benchmark,比如content image本文选取的是NPRgeneral但style image部分业界还没有统一作为benchmark的数据,因为确实没有style类型的要求。
基于以上讨论,NST的标准化确实是一个重要的、值得进一步探索的方向。
Part B 神经网络风格迁移的可解释性
与其他算法把神经网络作为一个黑盒子一样,NST算法的可解释性也十分有必要,主要关注:相互解耦的特征表述、NST的归一化方法以及NST的一些对抗攻击的例子。
(1)Representation disentangling
主要探究不同维度下特征表述的可解释性,改变某一参数对其他参数的影响,对机器学习、迁移学习的探究也有帮助。比如明确参数与颜色、形状、stroke size之间的关系皆可以精确调控风格化的效果,目前有监督和无监督两类方法,监督方法需要标注信息的参与,无监督方法虽然不需要标注信息的参与但特征的可解释性往往差强人意。
因此明确NST中哪些参数调控风格化效果也是一个研究方向。
(2)归一化方法
归一化方法的演进、发展也显著影响着NST的效果,Table 4罗列了一些归一化方法,最早用于NST的是instance normalization,相当于batch=1的BN,可以使网络更快收敛,风格化效果更佳。一种解释是instance normalization使得网络将内容上相矛盾的信息丢弃,从而简化学习。借助IN可以将任意图像迁移成特定风格,网络的其他部分只需要关注content loss即可。
随后Dumoulin等人进一步提出了conditional instance normalization,可以对instance noemalization层做缩放和参数平移,进一步对生成的风格做调整,也就是任意风格的生成。类似的还有adaptive instance normalization.
但背后的机理还未阐明。
在这里插入图片描述(3)对抗样本
目前已有 研究发现,一些分类网络很容易被对抗样本欺骗,导致结果错误。如Fig14所示,只需要对原图增加微小扰动,就会使得网络混淆难以识别正确结果,显示出人类视觉认知和网络的认知存在很大的差别,因此学习和研究NST的对抗样本对风格化迁移问题也十分必要。
在这里插入图片描述Part C Three-way Trade-Off
NST算法常常需要在speed,flexibility和quality之间权衡。其中IOB-NSTquality最佳但要耗费巨大的计算成本;
PSPM-MOB-NST能够满足实时风格化的需求但需要对每种风格训练单独的网络,flexibility较差;
MSPM-MOB-NST将多种风格融合到一个网络中但需要预训练网络的参与;
ASPM-MOB-NST能够实现任意风格的迁移但目前在quality和speed方面仍然差强人意,严重依赖于风格训练数据的多样性。
此外,超参数的设置目前还是基于经验进行的,对于不同的content和style组合需要重新设置超产慢慢微调,十分费时,因此这方面还需要对NST的优化继续研究,以便找到局部最佳提高风格化图像的质量。

扫描二维码关注公众号,回复: 11847521 查看本文章

Section VIII Discussion and Conclusion

Table 5总结了NST方面的算法,可以结合前面Fig2的分类图一起看。
在这里插入图片描述经过近年来无数学者心血的倾注,NST方面已取得了进步和发展。目前NST的首要关注点在于如何更好地迁移各种风格,主要有两大技术方向:一是减少迁移失败的示例,提升各种风格成功示例的比例和质量;二是基于现有的NST算法延伸出更多变体,比如研究3D表面的风格化等。
NST算法之外,除了仅仅模仿人类创作的各种艺术风格,还可以探究AI进行艺术创作,探索更多风格组合的可能性。

猜你喜欢

转载自blog.csdn.net/qq_37151108/article/details/107359666