Exploração e prática da tecnologia AIGC em cenas de shows Taotao




Este artigo apresenta o crescimento explosivo dos campos relacionados ao AIGC e discute as idéias de design e soluções técnicas do Taobao Xiuxiu (AI Buyer Show). O artigo cobre tecnologias-chave, como geração de imagens, geração de imagens de simulação e soluções de mudança de fundo, bem como conexão em série de processos de modelos. O artigo também apresenta o processo de utilização do Taotaoxiu, os problemas encontrados e como lidar com eles. Finalmente, o artigo analisa as tendências futuras de desenvolvimento do AIGC, incluindo otimização da experiência de uso do modelo, geração automatizada de materiais e exploração de formas de produtos.


introdução


Os campos relacionados ao AIGC experimentaram um crescimento explosivo. No campo da IA ​​baseada em imagens, surgiram ferramentas profissionais como Midjourney e SD, e também foram lançados aplicativos para geração de imagens virtuais, como Miaoya Camera e Meitu Xiuxiu.


Os atuais grupos de usuários e comerciantes do Taobao podem considerar o projeto de uma ferramenta de IA que combine usuários e comerciantes, com o tema de endossos de produtos de usuários gerados por IA, para ajudar os comerciantes a melhorar a atratividade das exibições de produtos e, ao mesmo tempo, aprimorar os usuários por meio de personalização. e imagens virtuais inovadoras.


Nesse contexto, colegas de produto criaram um produto generativo que permite aos usuários uma sensação de imersão, Taotao Xiu (também chamado de AI Buyer Show), que permite aos usuários fazer upload de fotos para criar recomendações de produtos que se parecem comigo, mas são melhores do que eu. Combinado com alguma jogabilidade interativa, pode despertar o interesse criativo dos usuários e melhorar os indicadores do negócio.


Palavras-chave: aplicativos inovadores de IA de imagem, fácil criação pelo usuário, compartilhamento de conteúdo e integração com marcas comerciais.


Pesquisa técnica

Todo o produto será mais complicado. Aqui discutimos principalmente algumas capacidades técnicas relacionadas ao AIGC. No design do produto da exposição do comprador, existem as seguintes demandas na dependência de capacidade relacionada do AIGC:

  1. Gerar modelos de materiais de alta qualidade, materiais de produtos que os usuários desejam endossar, a fim de obter melhores resultados; gerar

  2. Combine modelos de materiais e imagens do usuário para gerar imagens relacionadas ao usuário; geração de imagens do usuário

  3. Com base nas imagens dos usuários, considere substituir os estilos de fundo para melhorar a riqueza (em planejamento, ainda não online, escreva sobre isso); geração e substituição de fundo


Links de produtos relacionados, isto é relativamente cedo, alguns ajustes foram feitos em alguns dos planos no mapa de pesquisa, mas o processo geral é semelhante:

  1. Gerar material -> Configurar template -> Gerar mapa de endosso do usuário -> Realizar mapeamento;

  2. Ao mesmo tempo, estamos considerando a geração de algumas categorias de vídeos.



▐Comparação de soluções de geração de imagens  


Quando o requisito é (pessoa real + cena + categoria de produto) , alguns casos de imagens de materiais relativamente bons são gerados para uso dos usuários e vários modelos são usados ​​no processo.


Agora, do ponto de vista post-mortem, penso que deveríamos fazer algumas comparações entre estes modelos e considerar várias dimensões:

  1. Precisão (facilidade de uso):   A consistência entre a imagem gerada pelo modelo e a descrição da palavra-chave

  2. Escalabilidade ; Acesso à API e automação: se o modelo oferece suporte ao acesso à API. Se ele suportar API, a execução de tarefas liberará operações. Afeta a velocidade e a eficiência.

  3. Taxa de sucesso:  Aproximadamente quantas fotos podem ser usadas para se ter uma foto utilizável, e a taxa de sucesso está dentro de uma faixa aceitável.


Use palavras de alerta da seguinte forma:
Uma fotografia ultra-realista capturada com a estética de uma câmera de iPhone, retratando uma mulher chinesa moderna em um local distinto em Xangai. A mulher está sentada num banco de madeira, o fundo é suavemente desfocado, mostrando a arquitetura única da cidade. O parque está repleto de vegetação exuberante e flores vibrantes, exalando tranquilidade. A luz solar suave banha o rosto e o cabelo da mulher, criando um brilho sutil e natural. A imagem, tirada em alta resolução com proporção de 750:1200, exala o charme e a elegância autênticos do personagem.

Efeitos de diferentes modelos:


Modelo: meio da jornada

Características: Alta facilidade de uso; sem escalabilidade; taxa de sucesso de até 50%;

Vantagens: alta qualidade de geração, bons efeitos na vida real e pode gerar imagens complexas.

Desvantagens: restrições de acesso; sem API, não é possível comunicar diretamente com o sistema. ;Limite de taxa, um único usuário geralmente só pode gerar uma vez por minuto.

Renderização:

Caso ruim:

Basicamente não muito, é apenas uma questão de estilo, ângulo, etc.

Modelo: Tongyi Wanxiang
Características: alta facilidade de uso; alta escalabilidade; taxa de sucesso média de 10~50%;
Vantagens: Produto interno; suporta acesso API; fácil de usar
Desvantagens: O efeito é um pouco pior em cenas da vida real, mas não inaceitável; é mais caro, com uma única foto custando 0,16 yuans no site oficial.
Renderização:
Caso ruim:

Às vezes o rosto fica deformado


Modelo: Difusão Estável
Características: baixa facilidade de uso; alta escalabilidade; baixa taxa de sucesso de cerca de 1%;
Vantagens: Código aberto; permite modelos customizados e auto-implantação; o efeito pode ser muito bom após o ajuste.
Desvantagens: É difícil de usar; as palavras do prompt são difíceis de ajustar e bons resultados exigem mais tempo; só pode gerar um determinado tipo e, uma vez combinado com categorias ou cenas, haverá problemas maiores.
Renderização:
Na verdade, o efeito não é muito bom.
Caso ruim:

A probabilidade de fracasso ainda é relativamente alta.


Modelo: DALL·E
Características: O efeito live-action do DALLE3 não é muito bom no momento, então vou ignorá-lo por enquanto. A restauração do DALLE2 é um pouco ruim.
Vantagens: Suporta acesso à API; pode gerar imagens de alta resolução; tem um grau relativamente alto de restauração de palavras de prompt
Desvantagens: Restrições de acesso; ainda é quase inútil em termos de efeitos na vida real.
Renderização:

BadCase: Em nossa cena, parece um caso ruim para pessoas reais.

Modelo: Duiyou
Características: estilo, tamanho, velocidade de geração, sem vantagens óbvias em relação ao acima.
Vantagens: Produto interno; o efeito é bom e tem um certo grau de restauração
Desvantagens: Não há equipe correspondente para entrar em contato e não há API no site oficial; também será deformado quando combinado com categorias específicas; o estilo é limitado; o tamanho é limitado
Renderização:


Conclusão geral:

  1. Midjourney tem melhor desempenho na geração de efeitos, mas seu processo requer participação manual contínua, o que significa altos custos de tempo.

  2. Comparando os efeitos de Wanxiang e Difusão Estável, Wanxiang tem um efeito melhor.Se você quiser aumentar a escala, considere usar Wanxiang;

  3. SD é menos eficaz em cenários gerais, mas o modelo SD oferece recursos abrangentes de personalização.


Com base em suas respectivas características, eles são resumidos da seguinte forma:


▐Comparação de soluções de geração de imagens de simulação  


Como fazer com que as imagens geradas contenham características de personagens correspondentes para que os usuários tenham um senso de envolvimento mais forte. Nossos colegas de algoritmo investigam diferentes soluções, clones digitais e troca de rostos. O efeito aproximado é o seguinte:


Levando em consideração as questões de recursos e de qualidade dos materiais por trás dele, o link de mudança de face também usa o modelo Roop convencional.


▐Alterar o esquema de fundo (em teste)  


Atualmente, a única solução disponível é a solução Inpaiting da SD, que envolve retirar os personagens, usar SemanticGuidedHumanMatting e, em seguida, complementar o plano de fundo. Como o estilo por trás dele é gerado, as palavras de prompt podem não cobrir todas as cenas e há certas restrições nas imagens de entrada. Há um certo grau de incontrolabilidade nos resultados.


O efeito ainda está sendo explorado para ver qual forma é mais adequada.


Algumas limitações:

  1. As pessoas não devem ocupar pouco espaço; o fundo não deve ser muito grande.

  2. As pessoas não devem segurar coisas nas mãos e os personagens não devem confiar em alguns itens, como sofás, assentos, etc.



▐Série de processos modelo  


Você pode dar uma olhada nos efeitos de Wanxiang da geração ao final em algumas cenas.

Cena de esperança: Mala - Homem - Aeroporto

调整提示词:An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He's sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy's complete face and facial features. He's posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k


用通义万相随机生成四张照片。(提示词好的话,生成的成功率感觉还可以,效果大家可以评估下到底如何)



淘淘秀AIGC的使用


  1. 在淘宝客户端搜索【淘淘秀】

  2. 点击【淘淘秀】进入到对应的小程序。

  3. 开始我的代言,上传自己的照片

  4. 生成用户的代言照片;

  5. 可以选择自己喜欢的代言照片发布到广场,也可以选择私密。


搜索【淘淘秀】

进入【淘淘秀】 开始代言,传照片
生成代言
选择代言

问题与处理


在应用AIGC时遇到的一些问题与处理;


问题1:模型在特定场景下生成效果不佳

方案:引入外部的Midjourney,人工生产与导入。一些内部模型可以生成的,选择内部模型批量生成组合多个模型使用。


问题2:线上生成效果不稳定,资源消耗大。

方案:  离线生成,人工筛选。预先生成内容以减少资源消耗,并提高内容质量的一致性。


问题3:每部署一个模型,都要写一套TPP;

方案:  利用vipserver进行模型匹配和调用,写一套模型调用的网关,结合限流和队列技术,平衡系统负载,提高部署效率。最开始以为只有TPP才能访问到模型部署的机器,后面发现知道IP之后,应用也可以直接调用模型的服务,就省去TPP这一层了。


问题4:  生成的内容后如何使用。

方案:  开发一些内容的配套工具,内容的导出,内容的检索(图片检索),内容标注,以满足不同场景需求。


展望

在第一阶段,大约一个月的时间主要关注于开发和上线,未来还有一些可尝试的计划和想法:

  1. 优化模型使用体验:后台体验和用户体验,当前只是确保具备对应的功能,但如何让管理人员介入进来更好的指导模型生产素材,还有很多体验优化可以做。 另外再用户侧的模型生成上,保证效果更好和更稳定。
  2. 自动化素材生成:看能否设定内容目标后,能利用模型自动化地生成内容,提升内容的规模和丰富性。
  3. 产品形态探索:从图片到视频,从图片到故事,或者配上音乐等等,有些形态看看是否要尝试,探索更有趣、更吸引人的产品形态。

跳出产品之外,一些预感即将会发生的,随着模型的性能以及效果变好之后,以后对专业的内容创作者依赖越来少,内容的生产效率越来越高。互联网上将会有越来越多的AI内容,针对每个人的个性化素材,解放人们的想象力...
当然内容过度也会有一定的影响,但最后肯定还是往好的方向发展。

考虑到越来越多的AI创新产品出现,本文所涉及到的AIGC能力我们在这次的开发中都沉淀到一个AI的平台,提供一些模型能力的复用, 对类似能力有兴趣的业务,可以探讨交流下,一起探索下更多AI的可能性。

团队介绍


大淘宝技术用户运营平台技术团队,是一支以用户为中心,技术驱动,正在积极探索AI的年轻队伍。我们坚持通过技术创新,提升用户全生命周期体验,持续为用户创造价值。以创新为核心价值观之一,我们鼓励团队成员在工作中不断探索、实验和创新,以推动业界技术的进步和用户体验的提升。

我们不仅关注当前业界领先的技术,更注重未来技术的预研和应用,尤其是AI的探索和实践。团队成员积极参与学术研究和技术社区,不断探索新的技术方向和解决方案。我们立足体系化,打造业界领先的用户增长基础设施,以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能阿里集团用户增长,日均处理数据量千亿规模、调用QPS千万级。

在用户增长技术团队,我们提供“增长黑客”极客氛围和丰富的岗位选择。如果你对AI技术有强烈的兴趣,喜欢探索、实验和创新,欢迎加入我们的队伍,一同推动AI在业界的应用和发展。

简历投递邮箱:[email protected]


¤  拓展阅读  ¤

3DXR技术 |  终端技术 |  音视频技术
服务端技术  |  技术质量 |  数据算法


本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

博通宣布终止现有 VMware 合作伙伴计划 deepin-IDE 版本更新,旧貌换新颜 WAVE SUMMIT 迎来第十届,文心一言将有最新披露! 周鸿祎:鸿蒙原生必将成功 GTA 5 完整源代码被公开泄露 Linus:圣诞夜我不看代码,明年再发布新版 Java 工具集 Hutool-5.8.24 发布,一起发发牢骚 Furion 商业化探索:轻舟已过万重山,v4.9.1.15 苹果发布开源多模态大语言模型 Ferret 养乐多公司确认 95 G 数据被泄露
{{o.name}}
{{m.name}}

Acho que você gosta

Origin my.oschina.net/u/4662964/blog/10149405
Recomendado
Clasificación