Los campos relacionados con AIGC han experimentado un crecimiento explosivo. En el campo de la IA basada en imágenes, han aparecido herramientas profesionales como Midjourney y SD, y también se han lanzado aplicaciones para generar imágenes virtuales como Miaoya Camera y Meitu Xiuxiu.
Los grupos de usuarios y comerciantes actuales en Taobao pueden considerar diseñar una herramienta de inteligencia artificial que combine a usuarios y comerciantes, con el tema de respaldo de productos de usuarios generado por inteligencia artificial, para ayudar a los comerciantes a mejorar el atractivo de las exhibiciones de productos y, al mismo tiempo, mejorar a los usuarios a través de anuncios personalizados. e imágenes virtuales innovadoras.
En este contexto, los compañeros de producto diseñaron un producto generativo que permite a los usuarios tener una sensación de inmersión, Taotao Xiu (también llamado AI Buyer Show), que permite a los usuarios subir fotos para crear recomendaciones de productos que se parecen a mí pero son mejores que yo. Combinado con un juego interactivo, puede despertar el interés creativo de los usuarios y mejorar los indicadores comerciales.
Palabras clave: aplicaciones innovadoras de IA de imágenes, creación sencilla de usuarios, intercambio de contenidos e integración con marcas comerciales.
Todo el producto será más complicado. Aquí analizamos principalmente algunas capacidades técnicas relacionadas con AIGC. Bajo el diseño del producto de la feria de compradores, existen las siguientes demandas sobre la dependencia de capacidades relacionadas de AIGC:
Generar plantillas de materiales de alta calidad, materiales de productos que los usuarios quieran respaldar, para lograr mejores resultados; generar
Combine plantillas de materiales e imágenes de usuario para generar imágenes relacionadas con el usuario; generación de imágenes de usuario
Sobre la base de las imágenes de los usuarios, considere reemplazar los estilos de fondo para mejorar la riqueza (en planificación, aún no en línea, escriba sobre ello); generación y reemplazo de fondos
Enlaces de productos relacionados, esto es relativamente temprano, se han realizado algunos ajustes en algunos de los planes en el mapa de la encuesta, pero el proceso general es similar:
Generar material -> Configurar plantilla -> Generar mapa de respaldo de usuarios -> Realizar mapeo;
Al mismo tiempo, estamos considerando la generación de algunas categorías de videos.
▐Comparación de soluciones de generación de imágenes
Cuando el requisito es (persona real + escena + categoría de producto) , se generan algunos casos de imágenes de material relativamente buenos para que los utilicen los usuarios y se utilizan varios modelos en el proceso.
Ahora bien, desde la perspectiva post-mortem, creo que deberíamos hacer algunas comparaciones entre estos modelos y considerar varias dimensiones:
Precisión (facilidad de uso): la coherencia entre la imagen generada por el modelo y la descripción de la palabra clave.
Escalabilidad ; Acceso a API y automatización: si el modelo admite el acceso a API. Si es compatible con API, la ejecución de tareas liberará las operaciones. Afecta la velocidad y la eficiencia.
Tasa de éxito: aproximadamente cuántas imágenes se pueden usar para tener una foto utilizable y la tasa de éxito está dentro de un rango aceptable.
Efectos de diferentes modelos:
Modelo: A mitad de viaje
Características: Alta facilidad de uso; sin escalabilidad; tasa de éxito de hasta el 50%;
Ventajas: calidad de alta generación, buenos efectos de la vida real y puede generar imágenes complejas.
Desventajas: restricciones de acceso; sin API, no se puede comunicar directamente con el sistema. ;Límite de velocidad, un solo usuario generalmente solo puede generar una vez por minuto.
Representación:
Mal caso:
A veces la cara se deforma.
La probabilidad de fracaso sigue siendo relativamente alta.
Conclusión general:
Midjourney funciona mejor en la generación de efectos, pero su proceso requiere participación manual continua, lo que significa altos costos de tiempo.
Comparando los efectos de Wanxiang y Difusión estable, Wanxiang tiene mejor efecto. Si desea ampliar, considere usar Wanxiang;
SD es menos eficaz en escenarios generales, pero el modelo SD proporciona capacidades de personalización integrales.
Según sus respectivas características, se resumen a continuación:
▐Comparación de soluciones de generación de imágenes de simulación
Cómo hacer que las imágenes generadas contengan las características de los personajes correspondientes para que los usuarios tengan un mayor sentido de participación. Nuestros compañeros de algoritmos investigan diferentes soluciones, clones digitales e intercambio de caras. El efecto aproximado es el siguiente:
Teniendo en cuenta los problemas de recursos y los problemas de calidad del material que hay detrás, el enlace de cambio de rostro también utiliza el modelo convencional de Roop.
▐Cambiar el esquema de fondo (en prueba)
Actualmente, la única solución disponible es la solución Inpaiting de SD, que implica extraer los personajes, usar SemanticGuidedHumanMatting y luego complementar el fondo. Debido a que se genera el estilo detrás de esto, es posible que las palabras solicitadas no cubran todas las escenas y existen ciertas restricciones en las imágenes de entrada. Hay un cierto grado de incontrolabilidad en los resultados.
El efecto aún se está explorando para ver qué forma es más adecuada.
Algunas limitaciones:
Las personas no deberían ocupar muy poco espacio; el fondo no debería ser demasiado grande.
Las personas no deben tener cosas en sus manos y los personajes no deben depender de algunos elementos, como sofás, asientos, etc. Esto también generará contenido extraño.
▐Serie de procesos modelo
Escena de esperanza: Maleta - Hombre - Aeropuerto
调整提示词:An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He's sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy's complete face and facial features. He's posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k
用通义万相随机生成四张照片。(提示词好的话,生成的成功率感觉还可以,效果大家可以评估下到底如何)
在淘宝客户端搜索【淘淘秀】
点击【淘淘秀】进入到对应的小程序。
开始我的代言,上传自己的照片
生成用户的代言照片;
可以选择自己喜欢的代言照片发布到广场,也可以选择私密。
搜索【淘淘秀】 |
|
开始代言,传照片 |
生成代言 |
选择代言 |
问题与处理
在应用AIGC时遇到的一些问题与处理;
问题1:模型在特定场景下生成效果不佳
方案:引入外部的Midjourney,人工生产与导入。一些内部模型可以生成的,选择内部模型批量生成组合多个模型使用。
问题2:线上生成效果不稳定,资源消耗大。
方案: 离线生成,人工筛选。预先生成内容以减少资源消耗,并提高内容质量的一致性。
问题3:每部署一个模型,都要写一套TPP;
方案: 利用vipserver进行模型匹配和调用,写一套模型调用的网关,结合限流和队列技术,平衡系统负载,提高部署效率。最开始以为只有TPP才能访问到模型部署的机器,后面发现知道IP之后,应用也可以直接调用模型的服务,就省去TPP这一层了。
问题4: 生成的内容后如何使用。
方案: 开发一些内容的配套工具,内容的导出,内容的检索(图片检索),内容标注,以满足不同场景需求。
-
优化模型使用体验:后台体验和用户体验,当前只是确保具备对应的功能,但如何让管理人员介入进来更好的指导模型生产素材,还有很多体验优化可以做。 另外再用户侧的模型生成上,保证效果更好和更稳定。 -
自动化素材生成:看能否设定内容目标后,能利用模型自动化地生成内容,提升内容的规模和丰富性。 -
产品形态探索:从图片到视频,从图片到故事,或者配上音乐等等,有些形态看看是否要尝试,探索更有趣、更吸引人的产品形态。
大淘宝技术用户运营平台技术团队,是一支以用户为中心,技术驱动,正在积极探索AI的年轻队伍。我们坚持通过技术创新,提升用户全生命周期体验,持续为用户创造价值。以创新为核心价值观之一,我们鼓励团队成员在工作中不断探索、实验和创新,以推动业界技术的进步和用户体验的提升。
我们不仅关注当前业界领先的技术,更注重未来技术的预研和应用,尤其是AI的探索和实践。团队成员积极参与学术研究和技术社区,不断探索新的技术方向和解决方案。我们立足体系化,打造业界领先的用户增长基础设施,以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能阿里集团用户增长,日均处理数据量千亿规模、调用QPS千万级。
在用户增长技术团队,我们提供“增长黑客”极客氛围和丰富的岗位选择。如果你对AI技术有强烈的兴趣,喜欢探索、实验和创新,欢迎加入我们的队伍,一同推动AI在业界的应用和发展。
简历投递邮箱:[email protected]
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。