Os campos relacionados ao AIGC experimentaram um crescimento explosivo. No campo da IA baseada em imagens, surgiram ferramentas profissionais como Midjourney e SD, e também foram lançados aplicativos para geração de imagens virtuais, como Miaoya Camera e Meitu Xiuxiu.
Os atuais grupos de usuários e comerciantes do Taobao podem considerar o projeto de uma ferramenta de IA que combine usuários e comerciantes, com o tema de endossos de produtos de usuários gerados por IA, para ajudar os comerciantes a melhorar a atratividade das exibições de produtos e, ao mesmo tempo, aprimorar os usuários por meio de personalização. e imagens virtuais inovadoras.
Nesse contexto, colegas de produto criaram um produto generativo que permite aos usuários uma sensação de imersão, Taotao Xiu (também chamado de AI Buyer Show), que permite aos usuários fazer upload de fotos para criar recomendações de produtos que se parecem comigo, mas são melhores do que eu. Combinado com alguma jogabilidade interativa, pode despertar o interesse criativo dos usuários e melhorar os indicadores do negócio.
Palavras-chave: aplicativos inovadores de IA de imagem, fácil criação pelo usuário, compartilhamento de conteúdo e integração com marcas comerciais.
Todo o produto será mais complicado. Aqui discutimos principalmente algumas capacidades técnicas relacionadas ao AIGC. No design do produto da exposição do comprador, existem as seguintes demandas na dependência de capacidade relacionada do AIGC:
Gerar modelos de materiais de alta qualidade, materiais de produtos que os usuários desejam endossar, a fim de obter melhores resultados; gerar
Combine modelos de materiais e imagens do usuário para gerar imagens relacionadas ao usuário; geração de imagens do usuário
Com base nas imagens dos usuários, considere substituir os estilos de fundo para melhorar a riqueza (em planejamento, ainda não online, escreva sobre isso); geração e substituição de fundo
Links de produtos relacionados, isto é relativamente cedo, alguns ajustes foram feitos em alguns dos planos no mapa de pesquisa, mas o processo geral é semelhante:
Gerar material -> Configurar template -> Gerar mapa de endosso do usuário -> Realizar mapeamento;
Ao mesmo tempo, estamos considerando a geração de algumas categorias de vídeos.
▐Comparação de soluções de geração de imagens
Quando o requisito é (pessoa real + cena + categoria de produto) , alguns casos de imagens de materiais relativamente bons são gerados para uso dos usuários e vários modelos são usados no processo.
Agora, do ponto de vista post-mortem, penso que deveríamos fazer algumas comparações entre estes modelos e considerar várias dimensões:
Precisão (facilidade de uso): A consistência entre a imagem gerada pelo modelo e a descrição da palavra-chave
Escalabilidade ; Acesso à API e automação: se o modelo oferece suporte ao acesso à API. Se ele suportar API, a execução de tarefas liberará operações. Afeta a velocidade e a eficiência.
Taxa de sucesso: Aproximadamente quantas fotos podem ser usadas para se ter uma foto utilizável, e a taxa de sucesso está dentro de uma faixa aceitável.
Efeitos de diferentes modelos:
Modelo: meio da jornada
Características: Alta facilidade de uso; sem escalabilidade; taxa de sucesso de até 50%;
Vantagens: alta qualidade de geração, bons efeitos na vida real e pode gerar imagens complexas.
Desvantagens: restrições de acesso; sem API, não é possível comunicar diretamente com o sistema. ;Limite de taxa, um único usuário geralmente só pode gerar uma vez por minuto.
Renderização:
Caso ruim:
Às vezes o rosto fica deformado
A probabilidade de fracasso ainda é relativamente alta.
Conclusão geral:
Midjourney tem melhor desempenho na geração de efeitos, mas seu processo requer participação manual contínua, o que significa altos custos de tempo.
Comparando os efeitos de Wanxiang e Difusão Estável, Wanxiang tem um efeito melhor.Se você quiser aumentar a escala, considere usar Wanxiang;
SD é menos eficaz em cenários gerais, mas o modelo SD oferece recursos abrangentes de personalização.
Com base em suas respectivas características, eles são resumidos da seguinte forma:
▐Comparação de soluções de geração de imagens de simulação
Como fazer com que as imagens geradas contenham características de personagens correspondentes para que os usuários tenham um senso de envolvimento mais forte. Nossos colegas de algoritmo investigam diferentes soluções, clones digitais e troca de rostos. O efeito aproximado é o seguinte:
Levando em consideração as questões de recursos e de qualidade dos materiais por trás dele, o link de mudança de face também usa o modelo Roop convencional.
▐Alterar o esquema de fundo (em teste)
Atualmente, a única solução disponível é a solução Inpaiting da SD, que envolve retirar os personagens, usar SemanticGuidedHumanMatting e, em seguida, complementar o plano de fundo. Como o estilo por trás dele é gerado, as palavras de prompt podem não cobrir todas as cenas e há certas restrições nas imagens de entrada. Há um certo grau de incontrolabilidade nos resultados.
O efeito ainda está sendo explorado para ver qual forma é mais adequada.
Algumas limitações:
As pessoas não devem ocupar pouco espaço; o fundo não deve ser muito grande.
As pessoas não devem segurar coisas nas mãos e os personagens não devem confiar em alguns itens, como sofás, assentos, etc.
▐Série de processos modelo
Cena de esperança: Mala - Homem - Aeroporto
调整提示词:An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He's sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy's complete face and facial features. He's posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k
用通义万相随机生成四张照片。(提示词好的话,生成的成功率感觉还可以,效果大家可以评估下到底如何)
在淘宝客户端搜索【淘淘秀】
点击【淘淘秀】进入到对应的小程序。
开始我的代言,上传自己的照片
生成用户的代言照片;
可以选择自己喜欢的代言照片发布到广场,也可以选择私密。
搜索【淘淘秀】 |
|
开始代言,传照片 |
生成代言 |
选择代言 |
问题与处理
在应用AIGC时遇到的一些问题与处理;
问题1:模型在特定场景下生成效果不佳
方案:引入外部的Midjourney,人工生产与导入。一些内部模型可以生成的,选择内部模型批量生成组合多个模型使用。
问题2:线上生成效果不稳定,资源消耗大。
方案: 离线生成,人工筛选。预先生成内容以减少资源消耗,并提高内容质量的一致性。
问题3:每部署一个模型,都要写一套TPP;
方案: 利用vipserver进行模型匹配和调用,写一套模型调用的网关,结合限流和队列技术,平衡系统负载,提高部署效率。最开始以为只有TPP才能访问到模型部署的机器,后面发现知道IP之后,应用也可以直接调用模型的服务,就省去TPP这一层了。
问题4: 生成的内容后如何使用。
方案: 开发一些内容的配套工具,内容的导出,内容的检索(图片检索),内容标注,以满足不同场景需求。
-
优化模型使用体验:后台体验和用户体验,当前只是确保具备对应的功能,但如何让管理人员介入进来更好的指导模型生产素材,还有很多体验优化可以做。 另外再用户侧的模型生成上,保证效果更好和更稳定。 -
自动化素材生成:看能否设定内容目标后,能利用模型自动化地生成内容,提升内容的规模和丰富性。 -
产品形态探索:从图片到视频,从图片到故事,或者配上音乐等等,有些形态看看是否要尝试,探索更有趣、更吸引人的产品形态。
大淘宝技术用户运营平台技术团队,是一支以用户为中心,技术驱动,正在积极探索AI的年轻队伍。我们坚持通过技术创新,提升用户全生命周期体验,持续为用户创造价值。以创新为核心价值观之一,我们鼓励团队成员在工作中不断探索、实验和创新,以推动业界技术的进步和用户体验的提升。
我们不仅关注当前业界领先的技术,更注重未来技术的预研和应用,尤其是AI的探索和实践。团队成员积极参与学术研究和技术社区,不断探索新的技术方向和解决方案。我们立足体系化,打造业界领先的用户增长基础设施,以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能阿里集团用户增长,日均处理数据量千亿规模、调用QPS千万级。
在用户增长技术团队,我们提供“增长黑客”极客氛围和丰富的岗位选择。如果你对AI技术有强烈的兴趣,喜欢探索、实验和创新,欢迎加入我们的队伍,一同推动AI在业界的应用和发展。
简历投递邮箱:[email protected]
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。