Taotao ショーシーンにおける AIGC テクノロジーの探求と実践




この記事では、AIGC 関連分野の爆発的な成長を紹介し、淘宝秀秀 (AI バイヤー ショー) の設計アイデアと技術ソリューションについて説明します。この記事では、画像生成、シミュレーション画像生成、背景変更ソリューションなどの主要なテクノロジーと、モデル プロセスの一連の接続について説明します。この記事では、Taotaoxiuの使用プロセス、発生した問題とその対処方法についても紹介します。最後に、この記事では、モデルの使用エクスペリエンスの最適化、材料の自動生成、製品形状の探索など、AIGC の将来の開発トレンドに期待しています。


導入


AIGC関連分野は爆発的に成長しており、画像AIの分野ではMidjourneyやSDなどのプロフェッショナルツールが登場し、Miaoya CameraやMeitu Xiuxiuといった仮想画像を生成するアプリも登場しています。


タオバオの現在のユーザー グループと販売者は、AI によって生成されたユーザー製品の推奨をテーマに、ユーザーと販売者を組み合わせる AI ツールの設計を検討できます。これにより、販売者が製品表示の魅力を向上させると同時に、パーソナライズされた表示を通じてユーザーを強化できるようになります。革新的な仮想画像体験。


これに関連して、製品のクラスメートは、ユーザーが没入感を得ることができるジェネレーティブ プロダクトである Taotao Xiu (AI Buyer Show とも呼ばれる) を設計しました。これにより、ユーザーは写真をアップロードして、私に似ているが私よりも優れた製品の推奨を作成できます。インタラクティブなゲームプレイと組み合わせることで、ユーザーの創造的な関心を呼び起こし、ビジネス指標を向上させることができます。


キーワード: 革新的な画像 AI アプリケーション、簡単なユーザー作成、コンテンツ共有、販売者ブランドとの統合。


技術研究

製品全体はより複雑になります. ここでは主に AIGC に関連するいくつかの技術的機能について説明します. バイヤー ショーの製品設計の下では、AIGC の関連する機能依存性に対して次のような要求があります:

  1. より良い結果を達成するために、高品質な素材テンプレート、ユーザーが推奨したい製品素材を生成し、

  2. 素材テンプレートとユーザー画像を組み合わせてユーザー関連画像を生成、ユーザー画像生成

  3. ユーザーの写真に基づいて、リッチさを向上させるために背景スタイルを置き換えることを検討します (計画中、まだオンラインではありません。それについて書いてください)。背景の生成と置き換え


関連製品のリンク。これは比較的初期のもので、調査マップの一部の計画にいくつかの調整が加えられていますが、一般的なプロセスは似ています。

  1. マテリアルの生成 -> テンプレートの構成 -> ユーザー推奨マップの生成 -> マッピングの実行;

  2. 同時に、いくつかのビデオカテゴリの生成を検討しています。



画像生成ソリューションの比較  


要件が(実在の人物 + シーン + 製品カテゴリ)である場合、ユーザーが使用できる比較的良好な素材画像ケースがいくつか生成され、そのプロセスでいくつかのモデルが使用されます。


さて、事後分析の観点から、これらのモデル間でいくつかの比較を行い、いくつかの側面を考慮する必要があると思います。

  1. 精度 (使いやすさ):   モデルによって生成された画像とプロンプトの単語の説明の間の一貫性

  2. スケーラビリティ; API アクセスと自動化: モデルが API アクセスをサポートしているかどうかAPI をサポートしている場合、タスクを実行すると操作が解放されます。速度と効率に影響します

  3. 成功率:  およそ何枚の写真を使用すれば使用可能な写真が得られるか、成功率は許容範囲内です。


次のようにプロンプ​​ト単語を使用します。
iPhone カメラの美学で撮影された超リアルな写真。上海の独特な場所で現代の中国女性を描写しています。女性は木製のベンチに座っており、背景は柔らかくぼかされており、街のユニークな建築物を示しています。公園内には豊かな緑と鮮やかな花が咲き誇り、静けさが漂います。柔らかな日差しが女性の顔と髪を照らし、繊細で自然な輝きを生み出します。アスペクト比 750:1200 の高解像度で撮影された画像からは、キャラクターの本物の魅力と優雅さがにじみ出ています。

さまざまなモデルの影響:


モデル: ミッドジャーニー

特徴: 使いやすさが高い; 拡張性がない; 成功率は 50% と高い;

利点: 生成品質が高く、現実的な効果が高く、複雑な画像を生成できます。

欠点: アクセス制限があり、API がなく、システムと直接通信できません。; レート制限。通常、1 人のユーザーが生成できるのは 1 分間に 1 回だけです。

レンダリング:

悪いケース:

基本的には大したことはなく、スタイルや角度などの問題です。

モデル: トンイ・ワンシャン
特徴: 高い使いやすさ、高い拡張性、中程度の成功率 10 ~ 50%、
利点: 社内製品、API アクセスをサポート、使いやすい
短所: 現実のシーンでは効果が若干劣りますが、許容できないほどではありません; 公式ウェブサイトでは 1 枚の写真の価格が 0.16 元と高価です。
レンダリング:
悪いケース:

顔が変形してしまうこともある


モデル: 安定拡散
特徴: 使いやすさが低い; 拡張性が高い; 成功率が約 1% と低い;
利点: オープンソース; カスタマイズされたモデルと自己展開が可能; 調整後の効果は非常に優れています。
短所: 使いにくい、プロンプトワードの調整が難しく、良い結果を得るまでに時間がかかる、特定のタイプしか生成できない、カテゴリやシーンと組み合わせると大きな問題が発生する。
レンダリング:
実は効果はあまり良くありません。
悪いケース:

失敗する可能性は依然として比較的高いです。


モデル: DALL・E
特徴: DALLE3 の実写効果は現状あまり良くないので、今回は無視します。DALLE2の復元は少し悪いです。
利点: API アクセスをサポート、高解像度の画像を生成できる、プロンプトの単語の復元度が比較的高い
短所: アクセス制限があるため、現実の効果という点ではまだほとんど役に立ちません。
レンダリング:

BadCase: 私たちのシーンでは、現実の人々にとっては悪いケースのように感じられます。

モデル: Duiyou
特徴: スタイル、サイズ、生成速度、上記に比べて明らかな利点はありません。
メリット:自社製品なので効果はまあまあ、ある程度の回復力がある
デメリット:問い合わせ先の対応チームが無く、公式サイトにAPIがない;特定のカテゴリと組み合わせると変形する;スタイルが限定される;サイズが限定される
レンダリング:


全体的な結論:

  1. Midjourney は効果を生成するのに最も優れたパフォーマンスを発揮しますが、そのプロセスには継続的な手動の参加が必要であり、これは高い時間コストを意味します。

  2. Wanxiang と Stable Diffusion の効果を比較すると、Wanxiang の効果が優れています。スケールアップしたい場合は、Wanxiang の使用を検討してください。

  3. SD は一般的なシナリオではあまり効果的ではありませんが、SD モデルは包括的なカスタマイズ機能を提供します。


それぞれの特徴を踏まえてまとめると以下のようになります。


シミュレーション画像生成ソリューションの比較  


ユーザーがより強い関与感を持てるように、生成された画像に対応するキャラクターの特徴を含める方法。私たちのアルゴリズムのクラスメートは、さまざまなソリューション、デジタル クローン、顔の交換を調査します。おおよその効果は以下の通りです。


その背後にある資源問題と材料品質問題を考慮して、フェイスチェンジリンクにも主流のループモデルが使用されています。


背景スキームの変更(テスト中)  


現在利用可能な唯一のソリューションは、SD の Inpaiting ソリューションです。これには、SemanticGuidedHumanMatting を使用してキャラクターを引き出し、背景を補完することが含まれます。背後にあるスタイルが生成されるため、プロンプトの言葉がすべてのシーンをカバーしているとは限らず、入力画像には一定の制限があります。結果にはある程度の制御不可能性があります。


どのような形式がより適しているのか、その効果はまだ研究中です。


いくつかの制限:

  1. 人物が占めるスペースが小さすぎたり、背景が大きすぎたりしてはなりません。

  2. 人々は手に物を持ってはいけません。また、キャラクターはソファや座っているなどの一部の物に依存すべきではありません。これも奇妙なコンテンツを生成します。



▐モデルプロセスシリーズ  


一部のシーンでは、Wanxiang の世代から最終段階までの効果を確認できます。

希望のシーン: スーツケース - 男性 - 空港

调整提示词:An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He's sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy's complete face and facial features. He's posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k


用通义万相随机生成四张照片。(提示词好的话,生成的成功率感觉还可以,效果大家可以评估下到底如何)



淘淘秀AIGC的使用


  1. 在淘宝客户端搜索【淘淘秀】

  2. 点击【淘淘秀】进入到对应的小程序。

  3. 开始我的代言,上传自己的照片

  4. 生成用户的代言照片;

  5. 可以选择自己喜欢的代言照片发布到广场,也可以选择私密。


搜索【淘淘秀】

进入【淘淘秀】 开始代言,传照片
生成代言
选择代言

问题与处理


在应用AIGC时遇到的一些问题与处理;


问题1:模型在特定场景下生成效果不佳

方案:引入外部的Midjourney,人工生产与导入。一些内部模型可以生成的,选择内部模型批量生成组合多个模型使用。


问题2:线上生成效果不稳定,资源消耗大。

方案:  离线生成,人工筛选。预先生成内容以减少资源消耗,并提高内容质量的一致性。


问题3:每部署一个模型,都要写一套TPP;

方案:  利用vipserver进行模型匹配和调用,写一套模型调用的网关,结合限流和队列技术,平衡系统负载,提高部署效率。最开始以为只有TPP才能访问到模型部署的机器,后面发现知道IP之后,应用也可以直接调用模型的服务,就省去TPP这一层了。


问题4:  生成的内容后如何使用。

方案:  开发一些内容的配套工具,内容的导出,内容的检索(图片检索),内容标注,以满足不同场景需求。


展望

在第一阶段,大约一个月的时间主要关注于开发和上线,未来还有一些可尝试的计划和想法:

  1. 优化模型使用体验:后台体验和用户体验,当前只是确保具备对应的功能,但如何让管理人员介入进来更好的指导模型生产素材,还有很多体验优化可以做。 另外再用户侧的模型生成上,保证效果更好和更稳定。
  2. 自动化素材生成:看能否设定内容目标后,能利用模型自动化地生成内容,提升内容的规模和丰富性。
  3. 产品形态探索:从图片到视频,从图片到故事,或者配上音乐等等,有些形态看看是否要尝试,探索更有趣、更吸引人的产品形态。

跳出产品之外,一些预感即将会发生的,随着模型的性能以及效果变好之后,以后对专业的内容创作者依赖越来少,内容的生产效率越来越高。互联网上将会有越来越多的AI内容,针对每个人的个性化素材,解放人们的想象力...
当然内容过度也会有一定的影响,但最后肯定还是往好的方向发展。

考虑到越来越多的AI创新产品出现,本文所涉及到的AIGC能力我们在这次的开发中都沉淀到一个AI的平台,提供一些模型能力的复用, 对类似能力有兴趣的业务,可以探讨交流下,一起探索下更多AI的可能性。

团队介绍


大淘宝技术用户运营平台技术团队,是一支以用户为中心,技术驱动,正在积极探索AI的年轻队伍。我们坚持通过技术创新,提升用户全生命周期体验,持续为用户创造价值。以创新为核心价值观之一,我们鼓励团队成员在工作中不断探索、实验和创新,以推动业界技术的进步和用户体验的提升。

我们不仅关注当前业界领先的技术,更注重未来技术的预研和应用,尤其是AI的探索和实践。团队成员积极参与学术研究和技术社区,不断探索新的技术方向和解决方案。我们立足体系化,打造业界领先的用户增长基础设施,以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能阿里集团用户增长,日均处理数据量千亿规模、调用QPS千万级。

在用户增长技术团队,我们提供“增长黑客”极客氛围和丰富的岗位选择。如果你对AI技术有强烈的兴趣,喜欢探索、实验和创新,欢迎加入我们的队伍,一同推动AI在业界的应用和发展。

简历投递邮箱:[email protected]


¤  拓展阅读  ¤

3DXR技术 |  终端技术 |  音视频技术
服务端技术  |  技术质量 |  数据算法


本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

博通宣布终止现有 VMware 合作伙伴计划 deepin-IDE 版本更新,旧貌换新颜 WAVE SUMMIT 迎来第十届,文心一言将有最新披露! 周鸿祎:鸿蒙原生必将成功 GTA 5 完整源代码被公开泄露 Linus:圣诞夜我不看代码,明年再发布新版 Java 工具集 Hutool-5.8.24 发布,一起发发牢骚 Furion 商业化探索:轻舟已过万重山,v4.9.1.15 苹果发布开源多模态大语言模型 Ferret 养乐多公司确认 95 G 数据被泄露
{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/4662964/blog/10149405