![](https://oscimg.oschina.net/oscnet/f261f46e-6c91-45ac-8244-6de8e132211d.jpg)
引言
作为一款装扮类产品,第二人生(淘宝人生2)为手机淘宝引流方式打开了新的大门。其中,结合AI的创新玩法是提升用户活跃度的重要手段。第二人生凭借形象的高度可定制化,提供了多种个性化玩法。随着AIGC技术在图像生成方向的发展,一些技术[1,2, 3, 4]在人像定制化生成上取得不错的进展。因此,我们基于Diffusion技术,构建了一套适用于3D数字人渲染图的AI写真算法方案。
![](https://oscimg.oschina.net/oscnet/2600ab61-386d-4464-9dce-13bafc66dffb.png)
-
低时间成本。我们不采用在线训练LoRA的方式,每次出图速度约20s,较基于训练LoRA的方案(预计2~5分钟)快7倍左右。 -
多样性。我们设计一种新的基于ip-adapter生图方案,在不影响背景多样性的情况下生成具有一致身份信息的定制化照片(局部多样性),同时,我们可以结合多种风格LoRA,通过调节提示词模版,支持多样的风格(内容多样性)。
技术方案
图3 AI照相馆算法pipeline
▐ 图像预处理
由于3D模型渲染结果的正视图截图质量参差不齐(例如,有些用户在捏脸的过程中引入“雀斑”,“贴花”),首先我们需要对输入人像做质量提升。我们首先使用人脸美肤模型对人脸进行美肤处理,这一步主要消除人脸上的雀斑。
![](https://oscimg.oschina.net/oscnet/108195d4-b521-482b-a022-5036624ac453.png)
此外,我们使用人脸增强模型进一步增强人脸,这一步是为了:
淡化面部一些不和谐的贴花;
在保持人像身份属性的条件下,将数字人像分布尽可能拉齐到真实人像分布。
![](https://oscimg.oschina.net/oscnet/29d2a9b8-7801-4b7b-a9d7-2308a5f4f874.png)
为了使得生成模型能够高效地利用输入图像的有用信息(如身份信息,妆容等),我们对人脸以及头发区域进行分割,同时裁剪出人脸区域,作为图像生成模型的输入(如图3)。接下来,裁剪出来的图像将通过人脸特征提取器提取人脸特征,通过cross attention机制,与提示词的clip特征共同输入到图像生成模型中。
▐ 图像生成模型
图6 ip-adapter算法框架
前期实验中,我们采用类似ip-adapter中提出的的图像注入方案(如图6),将图像编码成嵌入向量,通过crossatt的注入到U-net中,但是我们发现,如果将图像编码和文本编码相加,则会影响文本tokens对图像生成结果的控制,使得图像的局部多样性变低;如果将图像编码和文本编码按照维度拼接,由于attention中固有的特性(对前面的token更敏感),输入图像对生成结果的控制能力亦会变低。
图7 ip-adapter方案算法结果
例如(图7),若我们想生成一张具有红色头发风格的图像,但是受到输入人像的影响,生成结果中头发颜色没有按照提示词的描述进行生成,反而和输入人像发色一致,且背景成为单色(和输入人像背景一致),缺失局部多样性。为此,我们提出了一种新的参考图注入技术。
![](https://oscimg.oschina.net/oscnet/52586899-26c5-4166-9ad7-3ab3c75cadc3.png)
![](https://oscimg.oschina.net/oscnet/8225afd0-c32c-4964-8c3c-de4cdf8d870c.png)
![](https://oscimg.oschina.net/oscnet/326b23bb-bad3-4a0e-953c-cb00dbe7590c.png)
![](https://oscimg.oschina.net/oscnet/ae4cc690-4afe-4dc9-8e78-3884687f2943.png)
图8 启发区域生成算法
接下来,我们利用人脸区域掩码,基于blend diffusion,将具有局部多样性的背景区域引入到生图结果中。
![](https://oscimg.oschina.net/oscnet/45b730b6-501e-4b2b-95ee-6fd7964994cd.png)
![](https://oscimg.oschina.net/oscnet/3ab46c0f-03ab-4e39-b2c7-13d380096d17.png)
![](https://oscimg.oschina.net/oscnet/e7f209e5-21d0-41a5-8be5-5ff96d902580.png)
其中,越大,生成的图像的身份信息越和输入图像保持一致,但是,过大的
会引起边缘的不一致性,实验中我们设置成
。
下图是结果对比。可以发现ip-adapter中,输入的参考图会影响非人脸区域的多样性,例如,基于ip-adapter的头发区域近乎一致,而且背景缺失多样性(例如天空,基于ip-adapter的生成结果中天空颜色和参考图的背景近乎一致),而我们的方案能够保持非目标区域的多样性。
![](https://oscimg.oschina.net/oscnet/a2b17fa9-67d6-40b6-a56e-eaddcd889c27.png)
为了能使用户有新奇的体验,我们建立了一个涵盖约50种的风格模板库和LoRA模型库,在特殊时间节点(如圣诞节,元旦)线上发布对应的风格,切合热点以拉升用户活跃度。每种风格LoRA配合相应的提示词,使得我们的生成结果具有多样新和新奇性。
▐ 模型后处理
Stable Diffusion的basemodel出图率不能达到100%,出图仍存在“抽卡”的情况,例如,生成的图像和输入的图像人物身份信息不一致、面部出现“坏点”、肢体出现严重扭曲等。
图11 Stable Diffusion生图过程遇到的badcase
![](https://oscimg.oschina.net/oscnet/5acbe09f-e21c-4e04-932a-9babe618a270.png)
![](https://oscimg.oschina.net/oscnet/b1a390bd-d734-4609-8ad8-4347c349dcf3.png)
![](https://oscimg.oschina.net/oscnet/5acbe09f-e21c-4e04-932a-9babe618a270.png)
![](https://oscimg.oschina.net/oscnet/b1a390bd-d734-4609-8ad8-4347c349dcf3.png)
![](https://oscimg.oschina.net/oscnet/7b56897b-50c2-4fab-9ca4-085608c76e3b.png)
基于上述算法,在3D数字人像上,我们能够生成定制化的精美照片,如下图所示:
图12 算法定性效果
我们调查了用户反馈,其结果表明了对我们算法结果的认可。
![](https://oscimg.oschina.net/oscnet/7a42cb73-9707-474b-a93a-e1539a0805f0.png)
![](https://oscimg.oschina.net/oscnet/0d4e1ba4-27f3-4837-960f-1af3ac26bff7.png)
![](https://oscimg.oschina.net/oscnet/fdf70b84-c919-4344-8ca9-7afd5038218d.jpg)
[1] https://github.com/modelscope/facechain
[2] https://github.com/aigc-apps/EasyPhoto
[3] https://github.com/TencentARC/PhotoMaker
[4] https://github.com/mit-han-lab/fastcomposer
[5] hhttps://civitai.com/
[6] https://ip-adapter.github.io/
[7] https://github.com/InstantID/InstantID
[8] https://arxiv.org/abs/2306.00926
![](https://oscimg.oschina.net/oscnet/6b97bdcd-6713-455b-aeda-9cf5c1feeef3.jpg)
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。