【GAN入門】AI生成の概念

1. 説明

        GANとはGenerative Adversarial Networkの略で、2014年にGoodfellowらによって提案された教師なし学習アルゴリズムです。GAN はジェネレーター ネットワークとディスクリミネーター ネットワークで構成されており、この 2 つの対立を通じてジェネレーター ネットワークが本物のサンプルに似た偽のサンプルを生成するように学習されます。ジェネレーターとディスクリミネーターは、パフォーマンスを継続的に向上させるために互いに競い合います。GAN は、画像、音声、自然言語などの分野の生成タスクに広く使用されています。

2. AI&GAN生成の概要

        GAN は、モデルのトレーニングに使用された元のデータセットを使用して新しいサンプルを生成できる機械学習の一種です。ここには、ジェネレーターとディスクリミネーターという 2 つのニューラル ネットワークがあります。ここでは、エージェントはゼロサム ゲームで互いに対戦し、あるエージェントの勝利は別のエージェントの敗北となります。ジェネレーターの目標は、本物のデータと同じくらい現実的な偽データを作成することですが、ディスクリミネーターの目的は、本物のデータから偽データを識別することです。2 つのネットワークは、ジェネレーターがディスクリミネーターが実際のデータと区別できないデータを作成するまで、いたちごっこをします。

         人工知能 (AI) はもはや未来的な概念ではなく、私たちが今日住んでいる世界を変えつつあります。これにより、音声の認識、予測、問題解決など、通常は人間の知性を必要とするタスクを機械が実行できるようになります。これは、より賢明な意思決定を下し、反復的で退屈なタスクを自動化し、運用をより効率的に最適化するのに役立ちます。

        AI アルゴリズムは数多く存在しますが、業界で話題を呼んでいる AI の 1 つのタイプは生成 AI です。ChatGPT や Midjourney などの生成 AI ツールの人気が高まるにつれ、ユーザーは新しいアイデア、コンテンツ、ソリューションをこれまでよりも迅速に生成できるようになりました。

2.1 生成型人工知能とは何ですか?

        生成 AI は、教師なしおよび半教師ありの機械学習技術を利用する人工知能のサブ分野です。生成 AI は、オーディオ、ビデオ、テキスト、さらにはシミュレーションなど、まったく新しいコンテンツを作成するために使用できるアルゴリズムとモデルを記述します。

        画像解像度の向上や新たなビジネスモデルの創出から、医療分野での新薬の開発まで、実用化は多岐にわたります。

        データの予測や分類を行うためにトレーニングされた予測モデルや分類モデルなどの他の形式の AI とは異なり、生成 AI モデルは、元の入力データに似た新しいデータを作成することを目的としています。

2.2 人工知能のモデルを生成する?

        人工知能を生成するための著名なフレームワークまたはモデルには、次のようなものがあります。

  1.         1. 敵対的生成ネットワーク
    1.         2. トランスベースのモデル
      1.         3.可変速自動エンコーダ
        1.         4.バート
          1.         5. 自己回帰モデル

3. 敵対的生成ネットワーク (GAN)

3.1 GAN のコンポーネントを理解する

        敵対的生成ネットワーク (GAN) は、機械学習と深層学習における人工ニューラル ネットワーク アーキテクチャであり、競合プロセスで一緒にトレーニングされる、ジェネレーターとディスクリミネーターの 2 つのニューラル ネットワークで構成されます。ジェネレーターは実際のデータと区別できないデータ (画像、テキスト、オーディオなど) を生成しようとしますが、ディスクリミネーターは生成されたデータから実際のデータを区別する役割を果たします。この敵対的トレーニング プロセスは、ジェネレーターがより現実的なデータを作成する能力を継続的に向上させるのに役立ちます。

        写実的な風景画を作成したいと想像してください。この目的のために GAN を使用することにしました。

  1. ジェネレーター (アーティスト): ジェネレーターは、空白のキャンバスから始めるアーティストのようなものです。最初は、まったく風景には見えない画像がランダムに生成されます。
  2. ディスクリミネーター (美術評論家): ディスクリミネーターは美術評論家のようなものです。(データセットからの) 本物の風景画と、ジェネレーターによって作成された偽の風景が表示されます。当初、ジェネレーターの仕事が非常に悪かったため、ディスクリミネーターは本物の絵画と偽物の絵画を区別するのが苦手でした。
  3. トレーニングプロセス:
  • ジェネレーターは偽りの風景を作り出します。
  • ディスクリミネーターはそれを評価します。偽物であることが検出された場合、ジェネレーターにフィードバックが提供されます。
  • ジェネレーターはこのフィードバックを使用して、より説得力のある風景を作成しようとします。
  • このプロセスはループで繰り返されます。時間が経つにつれて、ジェネレーターは現実的な風景を作成するのが上手になり、ディスクリミネーターは何が本物で何が偽物かを区別するのがより熟練します。

        最終結果: 何度も反復した後、ジェネレーターは風景を作成するのが非常に上手になり、ディスクリミネーターは実際の絵画と生成された絵画をほとんど区別できなくなります。これで、非常にリアルな風景画を作成できる GAN が完成しました。

3.2 FAN アーキテクチャ。

        GAN は、ジェネレーターとディスクリミネーターという 2 つのニューラル ネットワークが連携して動作する深層学習アーキテクチャです。ジェネレーターとディスクリミネーターは、敵対的トレーニングと呼ばれるプロセスで一緒にトレーニングされます。トレーニング中、ジェネレーターはランダム ノイズを入力として受け取り、このノイズを意味のある出力、つまり実際のデータに似た偽のデータに変換します。

        弁別器に関しては、ジェネレーターの出力と実際のデータを入力として受け取り、入力が true または false の場合に確率スコアを出力します。両方のネットワークが一緒にトレーニングされます。ジェネレーターは、生成されたデータの品質を改善する方法に関するフィードバックとしてディスクリミネーターから確率スコアを受け取り、サイクルが継続します。弁別器は、重みとバイアスを調整して分類誤差を最小限に抑えるためにバックプロパゲーションを使用してトレーニングされます。ジェネレーターが改良されると、データを簡単に区別できなくなるため、ディスクリミネーターのパフォーマンスが低下します。

        ディスクリミネーターがデータがジェネレーターから来たのか実際のデータセットから来たのかを判断できないときに、最適な段階に達します。

3.3 GANの生成者と評価者

GAN アーキテクチャ

        すべての GAN では、ランダム ノイズ シードまたは潜在ベクトルを提供します。これは、ジェネレーターへの入力としてノイズとして送信される 2D 配列または 2D 配列にすることができます。ジェネレーター ネットワークはこの配列を増幅して、偽の 2D 画像を作成します。ここで、偽の画像と本物の画像の両方が弁別ネットワークに送信され、本物の画像と偽の画像を分類するように訓練されます。

        最大サイクル数は、発生器の損失と弁別器の損失に基づいて微調整されます。

3.4 GAN を実装するための 5 つのステップ

  • アプリケーションに応じて GAN アーキテクチャを定義する
  • 本物と偽物を区別するために識別子をトレーニングする
  • 偽のデータを使用してジェネレーターをトレーニングします。これにより、ディスクリミネーターが騙され、現実的に見えるようになります。
  • 複数のエポックにわたってディスクリミネーターとジェネレーターのトレーニングを続けます。
  • ジェネレーター モデルを保存して、新しい偽のデータを作成します。

        ジェネレーターのトレーニング中、ディスクリミネーターの値は一定に保たれますが、ディスクリミネーターのトレーニングではジェネレーターの値は一定に保たれます。誰もが静止している相手に対してトレーニングする必要があります。

応用

  • 偽のデータを生成して他の機械学習アルゴリズムを強化する
  • 顔を生成する
  • 画像から画像への変換
  • テキストから画像への翻訳
  • 超解像度: より高解像度の写真を取得します。

4. GANの応用。

        GAN には次のような幅広い用途があります。

1. 画像とビデオ: GAN は、グラフィックスやアニメーションに使用できるリアルなビデオと画像を作成できます。

2. 画像の超解像度: 超解像度敵対的生成ネットワーク (SRGAN) を使用して画像の解像度を向上させます。

3. Text to Speech: GAN を使用すると、GAN-TTS (Generative Adversarial Network for Text to Speech) を使用して提供されたテキストから音声を生成できます。

        敵対的生成ネットワークは、マシンがデータと対話する方法に革命をもたらす AIML の強力なツールです。GAN が開発と進歩を続けるにつれて、AI の将来の形成とイノベーションの推進に大きな影響を与えることになります。生成 AI の成長は、GAN の大きな可能性と影響力を示しています。

5. テーブルGAN(AIの生成)

        表形式 GAN は、合成表形式データを生成するために特別に設計された敵対的生成ネットワーク (GAN) です。画像データとは異なり、表形式のデータは通常、特徴行列として表されます。各行はインスタンスまたは観測値を表し、各列は特徴または属性を表します。

        表形式 GAN は、多層パーセプトロン (MLP) や 1D フィルターを備えた畳み込みニューラル ネットワーク (CNN) など、表形式データにより適したアーキテクチャを使用します。ジェネレーター ネットワークは、ランダム ノイズ ベクトルを入力として受け取り、合成表形式データセットを出力として生成します。弁別ネットワークは、バイナリ分類スコアを出力することによって、実際のデータと合成データを区別しようとします。

        表形式 GAN のトレーニング プロセスには、敵対的な方法でジェネレーターとディスクリミネーターのネットワークを更新することが含まれます。ジェネレーターはディスクリミネーターをだますことができる合成データを生成しようとし、ディスクリミネーターは実際のデータと合成データを正しく区別しようとします。ジェネレーターの目標は、合成データに対する弁別器の損失を最小限に抑えることですが、弁別器の目標は、合成データの損失を最大化し、実際のデータの損失を最小限に抑えることです。

        表形式 GAN には、データ拡張のための合成データセットの生成、データセット内の欠損値の代入、テストと検証を目的としたデータの生成など、さまざまな用途があります。ただし、トレーニング データが実際の母集団を代表していない場合、偏ったデータや非現実的なデータが生成されるリスクなど、いくつかの制限もあります。

        #GAN #ジェネレーティブAI

6. Generative AI:GAN検証技術

        Generative Adversarial Networks (GAN) には、生成されたサンプルの品質とパフォーマンスを評価するために使用されるいくつかの検証手法があります。GAN の最も一般的な検証手法には次のようなものがあります。

  1. 初期スコア (IS): この手法は、事前トレーニングされた初期モデルを使用して、生成された画像の多様性と品質を測定するスコアを計算します。スコアは、クラス分布と視覚的品質の観点から、生成された画像と実際の画像の間の類似性に基づいて計算されます。
  2. Frechet Inception Distance (FID): この手法も事前トレーニング済みのインセプション モデルを使用しますが、実際の画像の特徴表現と高次元の特徴空間で生成された画像の間の距離を計算します。FID スコアが低いほど、生成された画像が実際の画像により似ていることを示します。
  3. 精度と再現率 (PR): この手法は、実際のサンプルと比較して、生成されたサンプルの精度と再現率を評価します。精度は、実際のサンプルに類似する生成されたサンプルの割合を測定し、再現率は、生成されたサンプルに類似する実際のサンプルの割合を測定します。
  4. 目視検査: この手法には、生成されたサンプルを目視検査し、実際のサンプルと比較することが含まれます。これは主観的な手法ですが、生成されたサンプルの視覚的な品質と多様性について貴重な洞察を提供できます。
  5. ユーザー調査: この手法には、生成されたサンプルの知覚品質と多様性を評価するためにユーザー調査を実施することが含まれます。この手法はより主観的であり、参加者の好みや偏見に基づいて異なる場合があります。

おすすめ

転載: blog.csdn.net/gongdiwudu/article/details/132840672
おすすめ