人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换

人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换（特约点评：人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换对于图像分割任务提供了新的思路，这个创新点趣说人工智能必须推荐。来自网友小星的推荐！）

人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换摘要：不成对的图像到图像转换是将源域中的图像映射到目标域中的图像而不需要相应的图像对的问题。为了确保翻译的图像真实可信，最近的工作，如Cycle-GAN，要求这种映射是可逆的。然而，当这些领域是单峰时，这一要求表明了有希望的结果，其性能在多模式场景中是不可预测的，例如在图像分割任务中。这是因为，可逆性不一定强制语义正确性。为此，我们提出了一个语义一致的GAN框架，称为Sem-GAN，其中语义由源域中图像片段的类标识定义，由语义分割算法产生。我们提出的框架包括对翻译任务的一致性约束，它与GAN损失和周期约束一起强制执行翻译后的图像将继承目标域的外观，同时（大致）保持其与源域的身份。我们提供了几个图像到图像翻译任务的实验，并证明Sem-GAN显着提高了翻译图像的质量，有时甚至超过了FCN得分的20％。此外，我们表明，通过Sem-GAN翻译的合成图像训练的语义分割模型比其他变体导致显着更好的分割结果。

人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换简介：几个基本的计算机视觉任务[16,4,5]的最新进展明确地与大量注释数据集的可用性相关联，用于训练越来越复杂的深层架构[8,17,24]。然而，收集或注释这样的数据集通常具有挑战性或昂贵。一种便宜且易于管理的替代方案是采用计算机游戏软件[7,38,39]来渲染逼真的虚拟世界;这样的软件可以提供无限量的训练数据，也可以模拟可能难以观察的现实场景。不幸的是，使用来自合成域的数据经常会在学习模型中引入偏差，导致域转移可能会损害下游任务的性能[33,49]。

考虑域移位的标准方法是调整合成图像，使其统计与真实域的统计匹配。这是经典的域适应问题[3,14,12]，在图像像素[40,56,46]上完成时通常称为图像到图像的翻译。大多数这样的翻译算法需要来自两个域的相应图像对[19,11,20]。然而，由于生成对抗网络（GAN），近年来在无监督翻译方面取得了突破，不需要配对示例，而只需要来自两个领域的一组示例，这些示例更容易获得[46， 26,25,56]。然而，缺乏对应性导致难以解决的问题，因为需要从两组中估计图像分布和适应函数 - 这是一个不适定的问题，因为无数的边际分布是可能的。 - 在每个集合中的有限示例。

为了改善这种难以处理的问题，最近的方法对问题域或映射函数进行了假设。例如，在Liu等人。 [26,25]，假设两个域共享一个共同的潜在空间。在Cycle GAN [56]中，假定映射是可逆的，即，当映射回来时的转换图像必须与输入图像相同。学习这样的映射可以避免GAN训练中的一些众所周知的陷阱，例如模式崩溃，并且可以允许学习域之间的双射映射。

人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换贡献：在处理实际任务时，双射映射可能不足以生成有意义的翻译。例如，考虑图1中描述的实际到合成的翻译任务。这里，Cycle-GAN是根据Cityscapes数据集[6]对真实图像进行训练，合成道路场景图像由Mitsubishi Precision Simulator生成。很明显，Cycle-GAN已经学会了类“树”和“天空”之间的不正确映射，导致翻译难以置信。然而，根据Cycle-GAN成本函数，这种映射是可逆的。出现这个问题的原因是，在典型的翻译任务中，假设两组中的图像是来自所有各自子类（对象段）的联合分布的样本，并且翻译是这种联合分布之间的映射。。这种映射（即使是循环）也不能确保正确分配子类（模式）的边缘（例如，天空）。为此，我们尝试超越循环依赖，并在翻译过程中加入语义一致性。

在本文中，我们提出了一种新颖的GAN架构，用于像素级域自适应，创造语义一致的GAN（Sem-GAN），它将两个未配对的集合作为输入，每个集合由图像元组及其语义段标签组成，并通过优化标准的最小 - 最大发生器 - 鉴别器GAN目标[15]来学习域映射功能。然而，与标准GAN不同，我们通过语义分割网络传递生成的图像[28]（除了鉴别器）;该网络经过训练以分割目标域中的图像。如果翻译是理想的，则预期翻译的对象将从目标域继承其外观，同时保持其与源域的身份。例如，当翻译一个域中的“汽车”类时，训练以识别目标域中的“汽车”类的分段模型应该识别同一类中的翻译对象。我们使用地面实况语义类和它们的预测之间的差异作为错误线索（通过交叉熵损失）来通过反向传播来改进发生器。

鉴于语义分割本身是一个困难的（并且未解决的）计算机视觉问题，一个自然的问题是在GAN设置中包含这样的不完美模块是多么有用。我们的实验表明，使用表现相当好的分段方案（如FCN [28]）足以确保语义一致性，从而实现更好的翻译。此外，我们还提出与分散者一起训练分割模块;结果，其精度随着发生器 - 鉴别器对而提高。一位细心的读者会注意到，我们实际上正在解决鸡蛋问题：一方面，我们使用GAN来改进语义分割，另一方面，我们使用分段来改善图像到 - 图像翻译。为了澄清，我们不假设一个准确的分割模型，而是一些表现得相当好的模型，这可以通过使用有限数据在监督设置中训练语义分割模型来获得;例如，我们在Cityscapes数据集的实验中使用大约1K注释图像。我们的目标是使用此模型来改进域自适应，以便我们可以将大量合成图像调整到目标域，以在目标域上训练更好的分割模型。

分段模型的使用可以帮助我们更好。如上所述，标准图像转换模型的主要挑战是网络无法找到正确的模式映射。我们通过随机地从输入中消除语义类来引入语义丢失来探索我们框架的这个方面，以便网络可以学习独立地映射特定类。我们提供了各种图像到图像转换任务的实验，并表明我们的方案明显优于使用循环GAN的方案。

在继续之前，我们总结一下我们的主要贡献：我们使用来自语义分割模型的预测向GAN中的生成器引入新颖的反馈。我们提出了一种GAN架构，其中包括一个分段模块和以端到端方式培训的整个框架。我们引入语义丢失来改善我们的一致性损失。我们提供了几个图像到图像翻译任务的实验，展示了最先进的结果（有时候，对于Cycle-GAN，FCN得分超过20％）。此外，我们提供了使用所提出的翻译来训练语义段的实验 - 使用大型合成数据集的模型模型，并显示我们的翻译比最先进的模型产生明显更好的分割模型（平均IoU评分为4-6％）。

人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换网络架构：我们使用PyTorch [32]从作为Cycle-GAN2的一部分共享的代码中实现了Sem-GAN。对于GAN中的生成器和鉴别器，我们使用9个残余网络块的序列。 Adam优化器[21]用于训练网络，初始学习率为0.0002。验证准确度似乎在大约50个时期内饱和对于我们的所有任务，除了Seg CS任务，我们使用200个时期。对于我们的分段网络，我们使用Pytorch.3中的FCN [28]实现，与其他更深层次的网络（如Deeplab [5]和PSP-Net [54]）相比，与我们框架中的其他模块一起训练更便宜，更快捷。。在FCN中，我们使用VGG-16网络并在最终输出层使用交叉熵损失来强制执行Sem-GAN标准。

培训，测试和评估，我们通过在85：5：10分割中随机抽样每个数据集来定义训练，验证和测试集。图像裁剪为256 256像素;训练输入被裁剪在培训期间随机（作为数据增加的一部分），而验证和测试图像是中心裁剪的。在相应的训练集上预训练分割网络以识别19个语义类。请注意，我们仅使用来自理想天气条件（光线充足且天气好）的图像进行此培训，而其他条件（白天，夜晚，冬季等）的网络将与Sem-GAN中的其他模块一起学习。为了训练分段器，我们使用16个图像批量微调VGG-16模型，使用随机梯度下降优化参数学习率为0.0001，动量为0.9。在测试中，我们不使用分段管道直接向前传递源图像通过生成器并收集翻译的图像进行评估。对于定量评估，我们使用在相应域上训练的分段模型来使用翻译图像的语义分段准确性。为了确保无偏差的评估，我们使用两个分段网络报告结果，即（i）FCN和（ii）PSP-Net [54]。评估网络与Sem-GAN分别在各个领域的培训集上进行培训。使用这些模型，我们报告结果（i）总体准确度（Over.Acc）- 相对于注释像素总数正确预测的像素数，（ii）平均类精度（Avg.Acc） - 这是每类精度的平均值，以及（iii）平均交叉点 - 所有班级的过度联盟（mIoU）得分[28]。在19个评估类中，FCN分别在MP，Viper和CS数据集的测试集上实现了64.1％，56.2％和51.7％的mIoU，而PSP-net分别达到73.4％，71.1％和61.1％。我们使用从Cityscapes数据集中随机抽样的1K图像来训练该数据集上的相应分割模型。

人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换结论：我们提出了一个图像到图像的翻译框架，它使用段类标识来实现语义一致性，以实现真实的翻译。将这种一致性建模为新的损失，我们提出了端到端可学习的GAN架构。我们展示了我们的框架在三个数据集和六个翻译任务上的优势。我们的结果清楚地表明，本文提出的语义一致性对于确保翻译质量非常重要。

人工智能图像到图像转换图像分割任务中语义一致的图像到图像转换

猜你喜欢