大規模モデルとデジタル ヒューマン インテリジェンスの統合は、AIGC の新たな発展をどのように推進するのでしょうか?

青い文字をクリックしてください

795f08cbfe3974ddbc01708db4b07a93.jpeg

私たちに従ってください

AI TIME は、あらゆる AI 愛好家の参加を歓迎します。

今、デジタルピープルや大型モデルが話題になっています。このデジタル時代では、非常に現実的なデジタル人間を作成できるだけでなく、人間のような思考能力を持たせることもでき、大型モデルの出現は学習と意思決定を強力にサポートします。ただし、その幅広い用途には、一連の課題が伴います。2023 年 8 月 8 日、AI TIME の第 16 回 PhD 討論イベント「AIGC におけるデジタル ヒューマンとラージ モデルのアプリケーションと課題」に、香港科技大学のコンピューター サイエンスのジェイソン ファン博士、Zhu Xiangyang が特別に招待されました。 、香港城市大学の博士号を取得したPeople's Peng Ziqiao、大学情報学部DBIIR研究室の博士課程学生、Yang Xueting、北杭大学コンピュータサイエンスの直接の博士課程学生、Wu Haoyu、中国人民大学情報学院DBIIR研究室の学部2年生。デジタルヒューマンや大型模型などをテーマに、ゲスト5名が最新の技術研究成果や実用化、課題などについて語り合い、次世代における大型模型、デジタルヒューマン、AIGCの可能性と限界を共同で探りました。インターネット技術のこと。

Zhu Xiangyang: PointCILP V2: CILP と GPT のプロンプト

強力な 3D オープンワールド学習

Contrastive Language Image Pre-training (CLIP) は、2D 画像タスクでは良好なオープンワールド パフォーマンスを示していますが、3D 点群 (つまり PointCLIP) での転送能力はまだ満足のいくものとは程遠いです。Zhu Xiangyang 氏は、レポートの中で PointCLIP V2 を紹介しました。これは、3D 点群データ上の CLIP の可能性を最大限に引き出すことができる強力な 3D オープンワールド学習ツールです。実験的な比較を通じて、ゼロショット 3D 分類の 3 つのデータセットに対するこの方法の精度は、PointCLIP を大幅に上回っています。さらに、PointCLIP V2 は、簡単な方法で少数ショット分類、ゼロショット部分セグメンテーション、ゼロショット 3D オブジェクト検出に拡張でき、3D オープンワールド学習に対する優れた一般化能力を示しています。

彭子乔:SelfTalk: 自己監視型の通いトレーニング

3D 話し顔を理解するための図

音声による3Dフェイシャルアニメーション技術は、さまざまなマルチメディア分野に応用・展開されています。これまでの研究では、オーディオ信号からリアルな唇の動きや顔の表情を生成していました。しかし、データのみによって駆動される従来の回帰モデルは、高品質のラベルを取得することの難しさや、異なるモダリティ間のドメインのギャップなど、いくつかの根本的な問題に直面しており、その結果、結果の精度と一貫性が欠如します。Peng Ziqiao 氏はレポートの中で、新しいフレームワーク SelfTalk を紹介しました。これは、クロスモーダル ネットワーク システムで自己監視を通じて 3D の話す顔を学習する方法です。このフレームワークは、顔アニメーター、音声認識装置、読唇翻訳装置の 3 つのモジュールで構成されるネットワーク システムを構築します。SelfTalk の中核となるのは、オーディオ、テキスト、唇の形状の間で互換性のある特徴の交換を容易にし、ラベル付きデータへの依存を軽減する交換トレーニング グラフです。これにより、モデルがこれらの要素間の複雑な関係を学習できるようになります。

杨雪婷:D-IF: 不確実性を認識した人間のデジタル化

暗黙的な配布フィールド経由

本物そっくりのバーチャル ヒューマンは、メタバース、スマート ヘルスケア、自動運転シミュレーションなどの多くの業界で重要な役割を果たしていますが、それらを大規模かつ高度なリアリズムで作成することは依然として課題です。ディープインプリシット関数の利用により、画像ベースの 3D 衣服人体再構築の新時代が開かれ、詳細を含むピクセル位置合わせの形状復元が可能になります。その後、大多数の研究では、各点の決定論的な暗黙の値を回帰することによって表面の位置を特定します。しかし、サーフェスからの距離に関係なく、すべての点を同等に扱う必要があるでしょうか? Yang Xueting 氏はレポートの中で、暗黙の値を適応型不確実性分布に置き換えて、表面からの距離に基づいて点を区別する方法を導入しました。定性的な実験結果は、この不確実性分布損失を使用してトレーニングされたモデルが、より複雑なシワやリアルな手足をキャプチャできることを示しています。

ウー・ハオユー: EmoTalk: スピーチ主導の感情

3D 顔アニメーションのもつれの解除

音声駆動の 3D フェイシャル アニメーションは、音声の内容と感情に一致するリアルな表情を生成することを目的としています。しかし、既存の方法には感情情報の注釈が欠けていることが多く、表情機能も限られています。Wu Haoyu 氏はレポートの中で、感情情報に基づいた顔の生成を実現するために、複数の頭の注意メカニズムを使用する感情強化音声駆動モデルを共有しました。具体的には、この方法ではまず音声から感情的特徴と内容的特徴を分離し、次に感情エンコーダの予測効果を評価して最適化し、最後に 2 つの音声セグメントから抽出された特徴を相互再構成して、制御可能な個人的および感情的なスタイルを生成します。実験により、この方法はより強力な感情表現能力を備えているだけでなく、より高い精度も備えていることが示されています。

パネル

2Dのリアルデジタルヒューマンと3Dのデジタルヒューマン、どちらが未来なのでしょうか?他にどのような方向に開発を続けることができますか?

Zhu Xiangyang:データ形式が画像またはビデオであるため、2D のデジタル人物についてはより楽観的ですが、既存のテクノロジーは、3D デジタル人物よりも画像やビデオの編集または生成に関して成熟しています。両者の今後の研究の方向性としては、デジタルヒューマン画像に関わる著作権問題をどう解決するか、デジタルヒューマン世代の創造性をどう向上させるかなどが挙げられる。

Peng Ziqiao:現時点では、リアルなデジタル人物を実現したい場合、2D デジタル人物の方が優れた効果を発揮しますが、3D デジタル人物はレンダリング技術などの技術開発によって制限されており、リアルなレンダリング効果を実現するのは困難です。しかし、レンダリング技術の発展とマルチリアル メタバースの構築により、3D デジタル ピープルも未来になるかもしれません。この二人の今後の研究の方向性は主に、デジタルピープルをいかにリアルにするか、そしてデジタルピープルのイメージをいかに多様化するかということである。

Yang Xueting: 2D と 3D のデジタル建築は方向性が異なり、長所と短所も異なります。2D デジタル ヒューマンは、構築プロセスでピクセル レベルのアプローチを使用し、3D アプローチよりも必要な情報が少なくなります。人間の姿勢運転などの運転タスクでは、3D デジタル ヒューマンの方が良い結果が得られます。高解像度やリアリズムを考慮すると 2D 方式の方が優れていますが、運転タスクでは 3D デジタル ヒューマンのパフォーマンスが優れています。フォローアップ研究の方向性により、2D デジタル ヒューマンと 3D デジタル ヒューマンの利点を統一フレームワークに統合することができるため、2D デジタル ヒューマンは運転タスクにおいてより完璧に実行でき、3D デジタル ヒューマンはより高精細な効果を達成できます。

Wu Haoyu:建設プロセスにおいて 2D デジタル ヒューマンと 3D デジタル ヒューマンに共通する 2 つの重要な評価指標は、運転性と信頼性です。3D デジタル ヒューマンはより運転しやすく、2D デジタル ヒューマンはより現実的であり、将来の開発プロセスでは、両者の長所を学び、先にバランス状態に達したものが将来の主流になる可能性があります。3D デジタル ヒューマンのニューラル レンダリングの進歩により、より迅速に運転可能かつ現実的な状況に到達できるようになる可能性があります。今後の研究開発の方向性としては、2Dデジタル人材と3Dデジタル人材の利点を補完し、真正性とドライバビリティのWin-Winの方向に向けて発展させることが非常に重要である。

AIGC はデジタル ヒューマン テクノロジーとどのように統合されますか? 火花はどの方向に衝突しやすいでしょうか?

Zhu Xiangyang:学術的な観点から見ると、既存の生成モデルによって生成されたコンテンツは、客観的な自然法則に完全に準拠していない可能性があります。AIGC はデジタル ヒューマン テクノロジーを強化し、デジタル ヒューマンが配置されている背景を置き換えることができますが、背景環境の信頼性は保証される必要があります。問題は解決されました。さらに、デジタルヒューマンの特定の部分を編集する場合は、細部にまで注意を払う必要があります。

Peng Ziqiao: AIGC とデジタル ヒューマンを組み合わせることで、デジタル ヒューマンの世代により具体的なサービスを提供できます。現在登場している AI ツールの多くは完全に機能しており、デジタル ピープルそのもののイメージを最適化し、より鮮明で現実的で多様なデジタル ピープルを生み出すのに役立ちます。

Yang Xueting:まず第一に、AIGC とデジタル ヒューマンの組み合わせは、データ セットの構築と開発に貢献し、データ セットの多様性を豊かにすることができます。多様なデータセットに基づいて、下流タスクのパフォーマンスをさらに向上させることができます。第 2 に、デジタル ヒューマン自体も AIGC の一種であり、AIGC の開発はデジタル ヒューマンに関する関連技術研究から学ぶことができます。第 3 に、AIGC モデル自体がデジタル ヒューマンの生成タスク。ジェスチャの生成を支援し、生成された結果をより多様にすることができます。

Wu Haoyu: AIGC 支援による 3D デジタル ヒューマン生成のタスクでは、大規模な 3D データ セットが不足している場合、多数の 2D 画像データ セットに対して事前トレーニングを実行でき、その結果の画像生成モデルが得られます。 3D 再構成を支援する「事前」として使用できます。さらに、AIGC テクノロジーを使用して、下流タスクでのデータセットの制限を軽減することもできます。たとえば、AIGC の出力結果を使用して 2D デジタル担当者と 3D デジタル担当者の間のギャップを減らすことができます。

大規模な言語モデルはデジタル研究と AIGC 研究にどのような影響を与えますか?

Zhu Xiangyang:私の研究の方向性から始めると、大規模な言語モデルを使用して画像の生成をガイドできます。正確な説明を生成し、拡散モデルを使用して説明に一致する画像を生成することで、これは検討する価値のある方向性になります。

Peng Ziqiao:大規模な言語モデルを使用して、生成された AIGC 結果を変更およびガイドできるため、手動による変更の作業負荷が軽減され、作業がより効率的に改善されます。大量の手動データ アノテーションの場合、人によって理解が異なります。プロンプトを大規模な言語モデルに限定すると、出力されるコンテンツは比較的安定します。これにより、手動アノテーションの作業負荷が軽減されるだけでなく、データの一貫性も確保されます。データセット、性別。

Yang Xueting:大規模言語モデルは、より正確で高速な自然言語処理機能を提供し、デジタル ヒューマンおよび AIGC 指示と組み合わせることで、システムが人間の言語をよりよく理解して応答できるようになります。大規模な言語モデルを他のモジュールのデータと統合して、ユーザー エクスペリエンスを強化し、開発された製品をより効率的、インテリジェントでパーソナライズしたものにすることができます。

Wu Haoyu:大規模な言語モデルの研究パラダイムを作成し、それがどのようにトレーニング、推論、展開されるかを理解してから、その研究パラダイムをデジタル人間会議モデルのトレーニング、推論、応用に移行し、言語モデルをテキストに統合したいと考えています。上記を視覚的な概念に再現することに成功したことは、徹底的に研究する価値があります。

デジタル ヒューマン、AIGC、大型モデルのテクノロジーは、次世代のインターネット テクノロジーにどのような影響を与えるのでしょうか?

彭子喬「 AIGC などのさまざまな新技術の出現により、技術革命の到来が期待されています。また、ChatGPT の出現により、多くの専門職の敷居が低くなりました。インターネットは私たちの生活にさらなる利便性をもたらし、ユーザーはより関与し、作成者とユーザーの役割。次世代のインターネット技術の発展により、ユーザーがビルダーになることが可能になり、多くのタスクが何も考えずに簡単に完了できるようになります。

Wu Haoyu:前世代のインターネットでは、情報を見つけるために検索エンジンを使用する傾向がありましたが、使用する過程で無効な情報が発生することがありましたが、ChatGPT に代表されるインターネット技術の出現後は、検索エンジンが検索に役立ちます。統合された ChatGPT は、将来的には既存の検索エンジンの地位を大きく置き換えることになるでしょう。

Yang Xueting:これら 3 つのテクノロジーの出現により、私たちは多くの利便性をもたらし、より没入型の体験ができるようになりました。将来的には、私たち一人ひとりがインターネット上に自分のデジタル スコアや IP 画像を持つようになるかもしれませんが、これにはいくつかの隠れた危険も伴います。生成技術とセキュリティ技術の開発は相互に補完的です。

朱祥陽氏:大規模な言語モデルを検索エンジンとして使用すると、言語モデル自体の生成能力と記憶データに基づいて回答が得られますが、回答内容の正しさは保証されず、倫理的、安全性、道徳的問題を引き起こす可能性があります。将来的には、このリスクと悪影響を回避するために、対応するアルゴリズムを開発する必要があります。

デジタル ヒューマン、AIGC、大規模モデルの開発と適用中に、どのような倫理的およびプライバシー上の課題に直面する可能性がありますか? どのように回避し、対応すればよいでしょうか?

Yang Xueting:既存のインターネット テクノロジは、適用されるとプライバシーに関するいくつかの課題に直面しますが、時間の経過とともによりインテリジェントになり、AI によって生成されたコンテンツと実際のコンテンツをより正確に区別できるようになります。

Wu Haoyu:デジタル ヒューマン、AIGC、大型モデルの開発プロセスにおいて、最初に直面するのはプライバシーや著作権の問題です。たとえば、教師データの著作権の問題については、モデルを教師する前の初期段階で教師データをスクリーニングし、その後の段階で生成されたコンテンツの著作権を定義する必要があります。

Zhu Xiangyang:まず、大規模なモデルを更新および反復するプロセスで問題を解決できますが、深層学習モデルの内部は「ブラック ボックス」のようなもので、短期的には将来の開発方向を予測できません。これにより、学習モデルの解釈可能性についてさらに深く研究することができます。倫理や安全の問題を回避するプロセスでは、人力に全面的に依存する必要はなく、倫理テストや安全テストのための大規模なモデルを開発するなど、アルゴリズムの力を適切に活用することもできます。これらの潜在的な課題を解決するのは人間です。

Peng Ziqiao:大規模なモデルをトレーニングする前にデータセットを十分にクリーンにすることで、倫理的な問題をある程度回避できます。倫理的な問題が生じた後、ChatGPT と New Bing のアプローチは、悪影響を軽減するためにモデルの回答を継続的に制限することです。プライバシー問題については、例えば、顔認識にフェデレーテッドラーニング技術が使用される場合、複数の人がデータセットを共有するのではなく重みを共有することで、重みが共同して複数のデータセット間でモデルの能力を向上させることができ、元のデータが弱体化する影響があります。

主催: チェン・ヤン

レビュアー: Zhu Xiangyang、Peng Ziqiao、Yang Xueting、Wu Haoyu

過去号のおすすめ記事

ed13ec2ec976dd9cf956b437321bbb87.jpeg

忘れずにフォローしてください!毎日新しい知識が得られます!

 AI TIMEについて 

AI TIME は 2019 年に設立され、科学的思索の精神を継承し、あらゆる階層の人々を招待して人工知能の理論、アルゴリズム、シナリオの応用の本質的な問題を探求し、アイデアの衝突を強化し、世界的な AI 学者を結びつけることを目的としています。業界の専門家や愛好家は、討論の形で人工知能と人類の未来の間の矛盾を探り、人工知能分野の未来を探ります。

AI TIMEはこれまでに国内外から1,300人以上の講演者を招き、600回以上のイベントを開催し、600万人以上が視聴しました。

7ed2c262d61054887c5f6b26cb5dbd24.png

私はあなたを知っています。

覗く

おお

0ad91f42184abfb7d128365b60c36b58.gif

クリックして元のテキストを読み 、リプレイを表示します。

おすすめ

転載: blog.csdn.net/AITIME_HY/article/details/132530644