AI生图美学在淘宝的实践应用

【直播预告】大模型会取代程序员吗？”

本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量，特别是在电商领域的应用，主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。

美学的定义与分析

图像质量标准：现代设计框架下，定义的图像质量标准基本是统一的。侧重技能和技法的定义，也由此延伸出对图、画、照片、影像的质量评判，再此基础上对成图手段的特性会有所要求和侧重。
图像内容标准：意识形态下的表达好坏要求是广泛的，图像质量的标准会被打破，服务于内容表达的需要。业内通常由评论家或评委等权威人士进行定义和解读。

美学项目的目标

第一步-制定美学标准：制定AI生图标准与AI风格标准，联合中国美院与教授一起共研。突出专业性、针对性、客观性、权威性。
第二步-训练美学模型：基于AI美学标准培育美学判定模型，使机器能自动判定打分。
第三步-应用美学模型：基于美学模型能力指导淘宝AI生图模型调优升级。
第四步-升级淘宝风格模型：基于风格标准建立淘宝风格模型库，使商家具备丰富多样的风格模型可供选择。打造淘宝特色风格模型。

第一步：制定美学标准

基于「图像」的构成要素进行准则框架的定义，同时侧重「AI生成的特性」构建美学的标准：

图像构成：物形/环境/构图/光影/质感

AI生成特性：元素真实性&场景合理性

AI美学标准：5项准则，19项标准

第二步：训练美学模型

美学模型目标：机器对图片自动打分判定的准确率提升。
准确率：相同图片进行美学AI打分与人工打分，取人与机器分数的重叠率。

▐ 沉浸式体验

我们的AI美学评价模型采用多模态美学预训练与多任务微调学习方式。这样做的优点如下：

我们的模型参数较少，可快速训练迭代，推理速度快，可快速筛选高美学图像，也可测评不同生成模型的生成效果，减少人工标注与审核成本；
相比于只输出美学分的模型，我们模型可以输出生成图像异常属性，可解释性较高；
我们的模型输出的异常属性既可以作为生图修复的前置判别器，也可以为异常生成图像打标优化生成模型；

▐ 训练过程

基于美学标准制定评分规范，建立5分制的评分规则，由设计师进行打标沉淀优质AI训练数据：

制定评分规则：用于AI生图的评分规范（5档），以及用于原图筛选的评分规则（3档）。
人模图原图美学评价能力：根据对人模、环境、构图、光影、质感等图像品质的偏好，训练专门的人模图原图美学模型，用于美学分层。可过滤的低美学类型包括图像模糊、白边图或贴图，人面部不完整或裁切，人体被遮挡多，背景差或者整体美感差等。
AIGC生图美学评价能力：我们的AIGC生图美学评价主要针对于含有人物的生图，从关注画面合理性与关注画面融合度两大方面出发，基于5大准则、19项标准要求，制定评分规则，同时针对生图异常属性进行标注。目前我们的模型已支持的异常属性包括人与背景融合度异常（人物悬空、背景质感差等）、手部异常、面部异常、肢体异常、其他异常等，输出的美学分范围1到5分。

图：AIGC生图美学评价预测的不同美学分数的图片

合理训练：人与机器多轮匹配校验，保证数据优质。

1轮打分校验：取3人平均分来累积数据，保障打分客观。有分差部分重新解读差异具体呈现的问题点。再进行校验重打。确保不同人对准则的解读能保持理解一致和稳定（5分制度）。
2轮AI打分校验：取3人平均分与机器进行校对，有分差部分重新解读差异具体呈现的问题点，明确是人的问题还是机器的问题，确保两者能逐步一致，保障机器理解的准确性。（有初版AI判定模型后开始进行）。

技术框架

AIGC生图美学评价：根据设计师定义的5分美学准则，映射到五大质量等级。同时，我们对生成数据进行归纳分析，总结出五大属性，正常、人与背景融合度异常、手部异常、面部崩坏、躯体异常、其他异常。质量等级与属性原因组合形成美学评价提示词，作为多模态预训练模型的输入，损失函数采用美学分回归损失与属性原因多标签分类损失。
人模图原图美学评价：CLIP在美学评价上对图像质量、色彩、光照、构图、抽象概念等都具有很好的good/bad分类的zero-shot能力。因此，在预训练阶段，我们通过蒸馏CLIP的image encoder，提升backbone的美学表征能力。微调阶段使用提升后的backbone预测归一化后的美学评分。损失函数采用由L1损失和二分类交叉熵损失的加权，来提高模型的性能和鲁棒性。模型训练完成后，通过选取不同的阈值，能分层出不同美感级别的人模图片。

▐ 测试阶段

基于测试情况，分析当前机器问题或者人的问题，可持续调优模型的准确率。在这个过程中不断进化调优。

调优通用性：在千牛平台上测试淘宝内部的【千牛智能模型】与淘宝外部第三方的模型。同类型的人模评测可兼容，但发现有较大的浮动。通过抓取具体图片问题时发现，上传的原图质量会对于准确率有影响。为保障公平需要制定测试图集的标准。
机器打分的真实性测试：准确率会每周产生一定的上下浮动，基于模型情况进行标准测试集的建设。运用1200张标准测试集进行AI与人工打分（考虑原图难易情况会对AI判断造成影响，测试集分为简单、中等、困难三个等级，占比1:1:1）。
机器打分的严谨性测试：调优后的打分模型，会对新全新生成的图片进行自动打分，并和人的打分进行比对。

第三步：应用美学模型

目标：运用美学模型，提升淘宝AI大模型的良图率。

▐ 美学模型1.0版本-应用AI生图评测能力：

目标：通过美学模型评测淘宝生成模型，对图片评分与画面问题的判定，对判定的图片问题进行修复。
判定能力：可针对图片进行（1-5分）打分，筛选良图与差图，指导模型后续的优化建议。
识别能力：目前可反馈5个关键画面属性。（1. 手部异常。2. 人与背景不融合。3. 脸部异常。4. 身体异常。5. 其他）。
修复能力：AIGC生成人物时画好的手一直是难点，人的手部自由度高且姿态复杂多变、图中占比小且细节多，导致画手的成功率不高。特别地，在实际业务中，由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景，在进行换模特换背景时，生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手，对异常的手，利用3D手部状态重建模型保持正确的手指数量与手的形状，同时能够自适应生成图像中所需的手势。基于我们内部基底模型，融合Text Embedding，根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配，我们的手部修复方案在业务数据上测试，修复成功率超过50%，可大幅度提高整体的生图良图率。手部修复的case如下：

▐ 美学模型2.0版本-应用原图评测能力

目标：调优淘宝基地模型，目前有混杂的原图数据集，数据集质量参差不齐，需要进行有效的筛选优化。
背景：目前原图数据集来源核心是两部分：视觉中国和淘宝模特图。
视觉中国的摄影图核心是供给给新闻稿做新闻配图，因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理，有些诸如模特的处理已经比较夸张。
筛选优质原图：通过原图判定模型，筛选优质摄影图，调优自研模型等数据集效果。提升生图的良图率。（如多人混乱、背景混乱，场景融合感等效果可提升）。
收集专业摄影原图：目前通过设计团队搜集优质的摄影模特图。
1.0版本的AI美学评价模型影响生成模型，使生成模型自适应对齐人类偏好：AI美学评价可用于指导基于扩散的生成模型，不仅指导生成模型要生成高美学图像，也需要减少生成低美学图像的概率。为了解决这个问题，我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签，增强模型学习异常生成图像概念的能力，可以在推理阶段避免。

第四步：升级淘宝风格模型

目标：打造淘宝特色风格模型。

风格标准的归纳：风格框架已经设定完成，内容量较大，将联动校企合作研究生，根据我们的要求逐步填充风格内容。

▐ 风格的背景情况

目前风格选择的丰富性不足，生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
因为原图本身的来源关系，图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
因为采用穷举的方式，导致工具的选择项过多，体验比较复杂，商家使用过程中会选择困难，采用不断尝试的方式。