灵感艺术家项目,旨在通过AIGC绘图能力,联合商家打造低门槛+高趣味性的宣传海报设计大赛,本文分享我们的方案和优化方向。建议对AIGC感兴趣的工程、算法方向的同学阅读。
▐ 方案一 SD + Outpainting
▐ 方案二 SD Inpainting + Reference Only
▐ 方案三 基于Reference的Diffusion算法
▐ 方案四 SD + Lora/Dreambooth
▐ 探索一 VAE增强
对LDM(SD的主要引用论文)模型的结构进行分析,初步怀疑细节还原不足的核心原因在于VAE从像素空间到隐空间相互转换过程中,丢失了细节信息。
但距离完美还原,依然还有差距。
▐ 探索二 图像超分
在256 * 256分辨率下,文字几乎无法辨认。
在512 512分辨率下,相对256 256有明显改善,而且 2.X版本的还原度优于1.X版本。
经过多次调整,细节还原度能达到90%以上。但距离完美还原,依然还有一点差距。
▐ 探索三 贴图
通过提取原始商品的文字区域,贴图到生成商品的对应区域,完美还原文字细节。
线上方案
-
离线模块通过文生图产生一个背景图库。 -
离线模块预置多角度商品图,解决商品角度的多样性问题。 -
从背景图库中选择一张跟当前商品最相关的图作为引导图。解决商品和背景不协调的问题,提高出图率。 -
由商品图和背景图一起,生成线框图和商品白底图以及对应的mask。 -
通过Stable Diffusion+Canny Controlnet+Reference生成初步的商品海报。 -
使用SAM和LAMA抹除商品,防止后面贴图时,边缘出现对不齐的情况。 -
将抹去商品的图和步骤4中的商品白底图、对应的mask作为输入,合成新的图像。 -
提取步骤5中的生成商品的光影信息,投射到步骤7的商品上,生成最终的商品海报。
-
通过Copy&Paste的方式,保证无差别还原。
-
通过预置引导图解决了完全随机性,提高了出图率。 -
通过两步生成解决了倒影等问题。图像精美,具备高级感。 -
通过擦除重建以及图像融合技术,缓解了商品边缘的毛刺问题。 -
通过从生成图上提取光影,映射到贴图,解决了光影不和谐的问题。
初步看,效果可以接受了,但依然还有一些可以提升的空间,比如:
如何进一步提升复杂海报的生成效果,增加遮挡关系?
如何解决商品与背景的比例和谐,GLIGEN可能是答案?
贴图总显得不那么算法,是否有机会继续提升VAE的能力,或者去掉VAE。Consistency Decoder可以试试?
最后,探索从未停止,AIGC永不眠。
引用
[1] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
[2] Paint by Example: Exemplar-based Image Editing with Diffusion Models
[3] AnyDoor: Zero-shot Object-level Image Customization
[4] High-Resolution Image Synthesis with Latent Diffusion Models
[5] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
[6] GLIGEN: Open-Set Grounded Text-to-Image Generation
[7] https://github.com/openai/consistencydecoder
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。