フラグメント ノート | AIGC コア テクノロジーの概要

前書き: AIGC は AI-Generated Content の略で、直訳すると人工知能によるコンテンツ生成となります。つまり、人工知能技術を利用してコンテンツを自動的に制作するということです。2022 年の AIGC の発生は、主に深層学習モデルの技術革新によるものです。新世代のアルゴリズム、事前トレーニング モデル、マルチモーダル テクノロジーの統合により、AIGC の技術的変化が引き起こされ、AI モデルが自動化されたコンテンツ制作のための「工場」および「組立ライン」になりました。AIGCで使用されている主なモデルを以下に紹介します。

1. モデルの生成

1. 変分オートエンコーダー (VAE)

変分オートエンコーダ [1] は、2014 年に Kingma と Welling によって提案されました。潜在空間を数値的に記述する従来のオートエンコーダとは異なり、潜在空間を確率論的な方法で観察します。VAE はエンコーダとデコーダの 2 つの部分に分かれており、エンコーダでは元の高次元入力データを潜在空間の確率分布記述に変換し、デコーダではサンプリングされたデータから新しいデータを再構成して生成します。

顔画像がエンコーダを通じて「笑顔」、「肌の色」、「性別」、「ひげ」、「眼鏡」、「髪の色」などのさまざまな特徴を生成すると仮定します。生成された潜在特徴は、たとえば笑顔 = 0.5、肌の色 = 0.8 などの特定の値です。これらの値はデコーダーに送られてデコードされ、入力に近い画像、つまり顔に関する情報が取得されます。がネットワーク上に保存されており、この顔に対して入力された顔に似た固定画像が出力されます。しかし、上記の方法では入力と同様の多様な画像を生成することはできないため、VAEでは各特徴を確率分布で表現し、「笑顔」の値の範囲を0~5、「肌の色」の値の範囲を仮定します。は0〜10であり、この範囲内の数値サンプリングにより、生成された画像の潜在特徴表現を取得することができ、同時に、デコーダによって生成された潜在特徴を復号することによって生成画像を取得することができる。

2.敵対的生成ネットワーク (GAN)

敵対的生成ネットワーク [2] は、2014 年に Ian GoodFellow らによって提案され、ゼロサム ゲーム戦略学習を使用し、画像生成に広く使用されています。GAN には 2 つの部分が含まれています。

  • ジェネレーター: 適切なデータを生成する方法を学びます。画像生成の場合、ベクトルが与えられると画像が生成されます。生成されたデータは弁別器の負のサンプルとして使用され、実際のデータは弁別器の負のサンプルとして使用されます。
  • Discriminator: 入力が生成されたデータであるか実際のデータであるかを識別します。ネットワーク出力が 0 に近づくほど、データが生成される可能性が高くなります。逆に、実際のデータが生成される可能性が高くなります。
    ジェネレーターとディスクリミネーターは互いに対立します。継続的な反復トレーニングでは、双方の能力が強化され続け、最終的な理想的な結果は、ジェネレーターによって生成されたデータについて、ディスクリミネーターが真と偽を区別できないことです。

3. フローモデル(Flow)

フロー モデル [3] は、2014 年に Yoshua Bengio らによって提案されました。VAE や GAN と同時期の成果です。しかし、フロー モデルには全体的な数学的偏りがあり、初期の結果はあまり良くなく、計算量が非常に多かったため、OpenAI がフロー モデルに基づいた Glow モデル [4] をリリースして初めて研究が行われました。フローモデルは徐々に注目されるようになりました。フロー モデルの目的は、生成モデルの確率計算に直接取り組むことによって、入力サンプルの分布を見つけることです。フロー モデルの変換は通常、可逆的です。一般に、フローモデルは、複雑な高次元データに対して非線形変換を実行し、高次元データを潜在空間にマッピングし、独立した潜在変数を生成します。このプロセスは可逆的です。つまり、高次元データから潜在空間に、またはその逆にマッピングできます。

4. 普及モデル

拡散は非平衡熱力学にヒントを得ており、拡散ステップのマルコフ連鎖を定義し、徐々にデータにノイズを追加し、次に逆拡散プロセスを学習してノイズから必要なサンプルを構築します。拡散モデル [5] は元々、画像からノイズを除去するために設計されました。ノイズ リダクション システムが長期間にわたってより適切にトレーニングされると、純粋なノイズを唯一の入力としてリアルな画像を生成できるようになります。拡散モデルは、ノイズを追加することでトレーニング データを破損し、データを回復するためにノイズを除去する方法をモデルに学習させることで機能します。次に、モデルはこのノイズ除去プロセスをランダム シードに適用して、リアルな画像を生成します。

標準的な拡散モデルは 2 つのプロセスに分かれています: (1) 順拡散: 画像が完全にランダムなノイズになるまで元の画像に徐々にノイズを追加します; (1) 逆拡散: 各時間ステップで予測ノイズを徐々に除去し、それによって元の画像を復元しますガウス ノイズからのデータ。

安定拡散は、潜在拡散モデル (LDM) に基づいたヴィンセンチアン グラフ モデルの実装であるため、LDM をマスターすれば、安定拡散の原理をマスターすることになります。拡散モデルのトレーニングの計算能力を削減するために、LDM はオートエンコーダーを使用して元の画像空間を可能な限り表現できる低次元空間表現 (潜在埋め込み) を学習し、必要な計算能力を大幅に削減できます。

5. 変圧器

Transformer[6] は 2017 年に Google によって提案され、当初は異なる言語間の翻訳を完了するために使用されていました。本体には Encoder と Decoder が含まれており、前者はソース言語をエンコードし、後者はエンコードされた情報をターゲット言語のテキストに変換します。Transformer は、入力データの各部分の重要性に基づいて異なる重みを割り当てるアテンション メカニズムを使用しており、その並列処理の利点により、より大きなデータ セットでトレーニングできるため、GPT などの事前トレーニング済みの大規模モデルの開発が加速されます。

6. ビジョントランスフォーマー(ViT)

ViT[7] は 2020 年に Google チームによって提案され、Transformer を画像分類タスクに適用した成功例です。ViT は画像を 14*14 のパッチに分割し、各パッチを線形変換して固定長ベクトルを取得し、Transformer に送信します。以降の処理は標準の Transformer と同じです。

7.GPTシリーズ

GPT [8] の正式名は Generative Pre-trained Transformer で、その構造は Transformer モデルに基づいており、単語シーケンス内の次の単語を予測することで人間のようなテキストを生成できます。GPT と比較して、GPT-2[9] と GPT-3[10] は主にモデル サイズ、トレーニング データ、生成制御、生成品質が向上しています。GPT-3.5 では、人間のフィードバックに基づくメタ学習や強化学習 (人間のフィードバックからの報酬学習、RLHF) などの新しいトレーニング方法が追加されています。RLHF テクノロジーは、モデルが人間のフィードバックから学習し、生成品質を継続的に向上させるのに役立ちます。同時に、このテクノロジーは、モデルが不適切または有害なコンテンツを生成するのを防ぎ、生成されたテキストが人間の価値観や道徳基準に準拠していることを保証することもできます。

ChatGPT と InstructGPT [11] は兄弟モデルであり、対話におけるモデルのパフォーマンスを向上させるために、会話履歴モデリングやマルチターン会話処理など、GPT-3.5 に基づくいくつかの新しいトレーニング データと微調整テクノロジーが導入されています。生成タスクで。同時に、ChatGPT は、モデルの制御性と自然性をさらに向上させるために、いくつかの手動介入と対話型学習方法も使用します。

2023 年 3 月、OpenAI は GPT-4 [12] を開始しました。これは、事実性、制御性、制限超過の回避の点で、これまでで最高の結果を達成しました。

2. 大規模モデルの事前トレーニング

これまでさまざまなモデルが際限なく登場してきましたが、生成されるコンテンツは単純かつ低品質であり、現実世界のシナリオにおける柔軟で高品質なコンテンツ生成の要件を満たすには程遠いものです。大規模な事前学習済みモデルの出現は AIGC に質的な変化をもたらし、多くの問題が解決されました。CV/NLP/マルチモーダル分野では、CV分野:Microsoft Florence (SwinTransformer)、NLP分野:GoogleのBert&LaMDA&PaLM、OpenAIのGPT-3&ChatGPT、マルチモーダル分野:OpenAIのCLIP[13]&DALLなど、大規模なモデルが大きな成果を上げています。 -E、Microsoft の GLIP と Stability AI の安定版の普及。

3. AIGC関連製品

テキスト生成: JasperAI、copy.AI、ChatGPT、Bard、AI ダンジョン、Wen Xinyiyan など;
画像生成: EditGAN、Deepfake、DALL-E 2[14] (Wen Shengtu & Tushengtu)、Imagen[15] (Wen Sheng Tu)、Midjourney、Stable Diffusion [16] (Wen Sheng Tu & Wen Tu Sheng Tu)、Wen Xin Yige など、オーディオ生成: DeepMusic、WaveNet、Deep Voice、MusicAutoBot など、ビデオ生成: Deepfake、
videoGPT
、 Gliacloud、Make -A-Video、Imagen ビデオなど


参考文献

  1. 10,000 ワードの長文記事: AIGC テクノロジーとアプリケーションの完全な分析 - Zhihu (zhihu.com)
  2. 人工知能コンテンツ生成 (AIGC) ホワイトペーパー (中国情報通信技術院 & JD Discovery Research Institute)
  3. AIGC発展動向レポート2023(テンセント研究所)

参考文献

  1. DP キングマとマックス・ウェリング。変分ベイズの自動エンコード。ICLR、2014 年。
  2. イアン・J・グッドフェロー、ジャン・プージェ=アバディ、メディ・ミルザ 他 敵対的生成ネット。生理学研究所、2014 年。
  3. ローラン・ディン、デヴィッド・クルーガー、ヨシュア・ベンジオ。NICE: 非線形独立成分推定。ICLR(ワークショップ)、2015年。
  4. ディーデリク・P・キングマとプラフラ・ダリワル。グロー: 可逆 1x1 畳み込みによる生成フロー。NeurIPS、2018 年。
  5. ヤッシャ・ソール=ディックスタイン、エリック・A・ワイス、ニル・マヘスワラナタン、他 非平衡熱力学を使用した深い教師なし学習。ICML 2015: 2256-2265。
  6. アシシュ・ヴァスワニ、ノーム・シャジーア、ニキ・パーマー 他 必要なのは注意力だけです。生理学研究所、2017年。
  7. アレクセイ・ドソヴィツキー、ルーカス・ベイヤー、アレクサンダー・コレスニコフ 他 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。ICLR、2021年。
  8. ラドフォード・アレック、カルティク・ナラシンハン、ティム・サリマンス 他 生成的な事前トレーニングによる言語理解の向上。2018年。
  9. ラドフォード・アレック、ジェフリー・ウー、レウォン・チャイルド 他 言語モデルは教師なしのマルチタスク学習者です。OpenAI ブログ 1、いいえ。2019 年 8 月。
  10. ブラウン、トム、ベンジャミン・マン、ニック・ライダー 他 言語モデルは少数回の学習です。NIPS、2020年。
  11. 欧陽龍、ジェフリー・ウー、徐江 他 人間のフィードバックによる指示に従うように言語モデルをトレーニングします。NeurIPS、2022 年。
  12. https://openai.com/research/gpt-4
  13. アレック・ラドフォード、キム・ジョンウク、クリス・ハラシー 他 自然言語監視から転送可能な視覚モデルを学習する。ICML、2021年。
  14. アディティア・ラメシュ、プラフラ・ダリワル、アレックス・ニコル 他 CLIP潜在を使用した階層的なテキスト条件付き画像生成。arXiv 、
  15. チトワン・サハリア、ウィリアム・チャン、サウラブ・サクセナ 他 深い言語理解によるフォトリアリスティックなテキストから画像への拡散モデル。NeurIPS、2022 年。
  16. ロビン・ロンバック、アンドレアス・ブラットマン、ドミニク・ロレンツ 他 潜在拡散モデルによる高解像度画像合成。CVPR、2021年。

おすすめ

転載: blog.csdn.net/qq_36332660/article/details/133438496