Exploración y práctica de la tecnología AIGC en escenas de espectáculos de Taotao.

Este artículo presenta el crecimiento explosivo de los campos relacionados con AIGC y analiza las ideas de diseño y soluciones técnicas de Taobao Xiuxiu (AI Buyer Show). El artículo cubre tecnologías clave como la generación de imágenes, la generación de imágenes de simulación y soluciones de cambio de fondo, así como la conexión en serie de procesos de modelos. El artículo también presenta el proceso de uso de Taotaoxiu, los problemas encontrados y cómo solucionarlos. Finalmente, el artículo espera con interés las tendencias de desarrollo futuras de AIGC, incluida la optimización de la experiencia de uso del modelo, la generación automatizada de materiales y la exploración de formas de productos.

introducción

Los campos relacionados con AIGC han experimentado un crecimiento explosivo. En el campo de la IA basada en imágenes, han aparecido herramientas profesionales como Midjourney y SD, y también se han lanzado aplicaciones para generar imágenes virtuales como Miaoya Camera y Meitu Xiuxiu.

Los grupos de usuarios y comerciantes actuales en Taobao pueden considerar diseñar una herramienta de inteligencia artificial que combine a usuarios y comerciantes, con el tema de respaldo de productos de usuarios generado por inteligencia artificial, para ayudar a los comerciantes a mejorar el atractivo de las exhibiciones de productos y, al mismo tiempo, mejorar a los usuarios a través de anuncios personalizados. e imágenes virtuales innovadoras.

En este contexto, los compañeros de producto diseñaron un producto generativo que permite a los usuarios tener una sensación de inmersión, Taotao Xiu (también llamado AI Buyer Show), que permite a los usuarios subir fotos para crear recomendaciones de productos que se parecen a mí pero son mejores que yo. Combinado con un juego interactivo, puede despertar el interés creativo de los usuarios y mejorar los indicadores comerciales.

Palabras clave: aplicaciones innovadoras de IA de imágenes, creación sencilla de usuarios, intercambio de contenidos e integración con marcas comerciales.

investigación técnica

Todo el producto será más complicado. Aquí analizamos principalmente algunas capacidades técnicas relacionadas con AIGC. Bajo el diseño del producto de la feria de compradores, existen las siguientes demandas sobre la dependencia de capacidades relacionadas de AIGC:

Generar plantillas de materiales de alta calidad, materiales de productos que los usuarios quieran respaldar, para lograr mejores resultados; generar
Combine plantillas de materiales e imágenes de usuario para generar imágenes relacionadas con el usuario; generación de imágenes de usuario
Sobre la base de las imágenes de los usuarios, considere reemplazar los estilos de fondo para mejorar la riqueza (en planificación, aún no en línea, escriba sobre ello); generación y reemplazo de fondos

Enlaces de productos relacionados, esto es relativamente temprano, se han realizado algunos ajustes en algunos de los planes en el mapa de la encuesta, pero el proceso general es similar:

Generar material -> Configurar plantilla -> Generar mapa de respaldo de usuarios -> Realizar mapeo;
Al mismo tiempo, estamos considerando la generación de algunas categorías de videos.

▐Comparación de soluciones de generación de imágenes

Cuando el requisito es (persona real + escena + categoría de producto) , se generan algunos casos de imágenes de material relativamente buenos para que los utilicen los usuarios y se utilizan varios modelos en el proceso.

Ahora bien, desde la perspectiva post-mortem, creo que deberíamos hacer algunas comparaciones entre estos modelos y considerar varias dimensiones:

Precisión (facilidad de uso): la coherencia entre la imagen generada por el modelo y la descripción de la palabra clave.
Escalabilidad ; Acceso a API y automatización: si el modelo admite el acceso a API. Si es compatible con API, la ejecución de tareas liberará las operaciones. Afecta la velocidad y la eficiencia.
Tasa de éxito: aproximadamente cuántas imágenes se pueden usar para tener una foto utilizable y la tasa de éxito está dentro de un rango aceptable.

Utilice palabras clave de la siguiente manera:

Una fotografía ultrarrealista capturada con la estética de la cámara de un iPhone, que retrata a una mujer china moderna en un lugar distintivo de Shanghai. La mujer está sentada en un banco de madera, el fondo está suavemente borroso y muestra la arquitectura única de la ciudad. El parque está lleno de exuberante vegetación y flores vibrantes, que irradian tranquilidad. La suave luz del sol baña el rostro y el cabello de la mujer, creando un brillo sutil y natural. La imagen, tomada en alta resolución con una relación de aspecto de 750:1200, irradia el auténtico encanto y elegancia del personaje.

Efectos de diferentes modelos:

Modelo: A mitad de viaje

Características: Alta facilidad de uso; sin escalabilidad; tasa de éxito de hasta el 50%;

Ventajas: calidad de alta generación, buenos efectos de la vida real y puede generar imágenes complejas.

Desventajas: restricciones de acceso; sin API, no se puede comunicar directamente con el sistema. ;Límite de velocidad, un solo usuario generalmente solo puede generar una vez por minuto.

Representación:

Mal caso:

Básicamente no mucho, es sólo una cuestión de estilo, ángulo, etc.

Modelo: Tongyi Wanxiang

Características: alta facilidad de uso; alta escalabilidad; tasa de éxito media del 10 al 50 %;

Ventajas: Producto interno; admite acceso API; fácil de usar

Desventajas: El efecto es ligeramente peor en escenas de la vida real, pero no inaceptable; es más caro, con una sola foto con un precio de 0,16 yuanes en el sitio web oficial.

Representación:

Mal caso:

A veces la cara se deforma.

Modelo: Difusión estable

Características: baja facilidad de uso, alta escalabilidad, baja tasa de éxito de alrededor del 1%;

Ventajas: Código abierto; permite modelos personalizados y autoimplementación; el efecto puede ser muy bueno después del ajuste.

Desventajas: es difícil de usar, las palabras clave son difíciles de ajustar y los buenos resultados requieren más tiempo; solo puede generar un cierto tipo y, una vez combinado con categorías o escenas, habrá problemas mayores.

Representación:

De hecho, el efecto no es muy bueno.

Mal caso:

La probabilidad de fracaso sigue siendo relativamente alta.

Modelo: DALL·E

Características: El efecto de acción en vivo de DALLE3 actualmente no es muy bueno, así que lo ignoraré por ahora. La restauración de DALLE2 es un poco pobre.

Ventajas: Admite acceso API; puede generar imágenes de alta resolución; tiene un grado relativamente alto de restauración de palabras clave

Desventajas: Restricciones de acceso; sigue siendo casi inútil en términos de efectos en la vida real.

Representación:

BadCase: En nuestra escena, parece un mal caso para personas reales.

Modelo: Duiyou

Características: estilo, tamaño, velocidad de generación, sin ventajas obvias sobre lo anterior.

Ventajas: Producto interno, el efecto es bueno y tiene cierto grado de restauración.

Desventajas: no hay un equipo correspondiente con el que contactar y no hay API en el sitio web oficial; también se deformará cuando se combine con categorías específicas; el estilo es limitado; el tamaño es limitado

Representación:

Conclusión general:

Midjourney funciona mejor en la generación de efectos, pero su proceso requiere participación manual continua, lo que significa altos costos de tiempo.
Comparando los efectos de Wanxiang y Difusión estable, Wanxiang tiene mejor efecto. Si desea ampliar, considere usar Wanxiang;
SD es menos eficaz en escenarios generales, pero el modelo SD proporciona capacidades de personalización integrales.

Según sus respectivas características, se resumen a continuación:

▐Comparación de soluciones de generación de imágenes de simulación

Cómo hacer que las imágenes generadas contengan las características de los personajes correspondientes para que los usuarios tengan un mayor sentido de participación. Nuestros compañeros de algoritmos investigan diferentes soluciones, clones digitales e intercambio de caras. El efecto aproximado es el siguiente:

Teniendo en cuenta los problemas de recursos y los problemas de calidad del material que hay detrás, el enlace de cambio de rostro también utiliza el modelo convencional de Roop.

▐Cambiar el esquema de fondo (en prueba)

Actualmente, la única solución disponible es la solución Inpaiting de SD, que implica extraer los personajes, usar SemanticGuidedHumanMatting y luego complementar el fondo. Debido a que se genera el estilo detrás de esto, es posible que las palabras solicitadas no cubran todas las escenas y existen ciertas restricciones en las imágenes de entrada. Hay un cierto grado de incontrolabilidad en los resultados.

El efecto aún se está explorando para ver qué forma es más adecuada.

Algunas limitaciones:

Las personas no deberían ocupar muy poco espacio; el fondo no debería ser demasiado grande.
Las personas no deben tener cosas en sus manos y los personajes no deben depender de algunos elementos, como sofás, asientos, etc. Esto también generará contenido extraño.

▐Serie de procesos modelo

Puedes echar un vistazo a los efectos de Wanxiang desde la generación hasta el final en algunas escenas.

Escena de esperanza: Maleta - Hombre - Aeropuerto

调整提示词：An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He's sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy's complete face and facial features. He's posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k

用通义万相随机生成四张照片。(提示词好的话，生成的成功率感觉还可以，效果大家可以评估下到底如何)

淘淘秀AIGC的使用

在淘宝客户端搜索【淘淘秀】
点击【淘淘秀】进入到对应的小程序。
开始我的代言，上传自己的照片
生成用户的代言照片；
可以选择自己喜欢的代言照片发布到广场，也可以选择私密。

搜索【淘淘秀】	进入【淘淘秀】	开始代言，传照片	生成代言	选择代言

问题与处理

在应用AIGC时遇到的一些问题与处理；

问题1：模型在特定场景下生成效果不佳

方案：引入外部的Midjourney，人工生产与导入。一些内部模型可以生成的，选择内部模型批量生成组合多个模型使用。

问题2：线上生成效果不稳定，资源消耗大。

方案: 离线生成，人工筛选。预先生成内容以减少资源消耗，并提高内容质量的一致性。

问题3：每部署一个模型，都要写一套TPP；

方案: 利用vipserver进行模型匹配和调用，写一套模型调用的网关，结合限流和队列技术，平衡系统负载，提高部署效率。最开始以为只有TPP才能访问到模型部署的机器，后面发现知道IP之后，应用也可以直接调用模型的服务，就省去TPP这一层了。

问题4: 生成的内容后如何使用。

方案: 开发一些内容的配套工具，内容的导出，内容的检索(图片检索)，内容标注，以满足不同场景需求。

展望

在第一阶段，大约一个月的时间主要关注于开发和上线，未来还有一些可尝试的计划和想法：

优化模型使用体验：后台体验和用户体验，当前只是确保具备对应的功能，但如何让管理人员介入进来更好的指导模型生产素材，还有很多体验优化可以做。另外再用户侧的模型生成上，保证效果更好和更稳定。
自动化素材生成：看能否设定内容目标后，能利用模型自动化地生成内容，提升内容的规模和丰富性。
产品形态探索：从图片到视频，从图片到故事，或者配上音乐等等，有些形态看看是否要尝试，探索更有趣、更吸引人的产品形态。

跳出产品之外，一些预感即将会发生的，随着模型的性能以及效果变好之后，以后对专业的内容创作者依赖越来少，内容的生产效率越来越高。互联网上将会有越来越多的AI内容，针对每个人的个性化素材，解放人们的想象力...

当然内容过度也会有一定的影响，但最后肯定还是往好的方向发展。

考虑到越来越多的AI创新产品出现，本文所涉及到的AIGC能力我们在这次的开发中都沉淀到一个AI的平台，提供一些模型能力的复用，对类似能力有兴趣的业务，可以探讨交流下，一起探索下更多AI的可能性。

团队介绍

大淘宝技术用户运营平台技术团队，是一支以用户为中心，技术驱动，正在积极探索AI的年轻队伍。我们坚持通过技术创新，提升用户全生命周期体验，持续为用户创造价值。以创新为核心价值观之一，我们鼓励团队成员在工作中不断探索、实验和创新，以推动业界技术的进步和用户体验的提升。

我们不仅关注当前业界领先的技术，更注重未来技术的预研和应用，尤其是AI的探索和实践。团队成员积极参与学术研究和技术社区，不断探索新的技术方向和解决方案。我们立足体系化，打造业界领先的用户增长基础设施，以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能阿里集团用户增长，日均处理数据量千亿规模、调用QPS千万级。

在用户增长技术团队，我们提供“增长黑客”极客氛围和丰富的岗位选择。如果你对AI技术有强烈的兴趣，喜欢探索、实验和创新，欢迎加入我们的队伍，一同推动AI在业界的应用和发展。

简历投递邮箱：[email protected]

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文分享自微信公众号 - 大淘宝技术（AlibabaMTT）。
如有侵权，请联系 [email protected] 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。