ChatGPT だけが必要なわけではありません。すべての SOTA 生成 AI モデルを 1 つの記事で読んでください: 6 つの主要企業の 9 カテゴリの 21 モデルの完全なレビュー (2)

ChatGPT だけが必要なわけではありません。すべての SOTA 生成 AI モデルを 1 つの記事で読んでください: 6 つの主要企業の 9 カテゴリの 21 モデルの完全なレビュー (2)

AI ペイントは、「テキストから画像へ」またはテキストから 3D (テキストから 3D) という新しいインタラクティブな手法のおかげで、2022 年に注目のテクノロジー トピックになりました。2022 年 8 月には、Stable Diffusion が正式にオープンされ、近年の AI 開発への熱意がさらに高まることは間違いありません。

機械学習が初めて始まったときと同じように、AI 生成技術は何もないところから現れたわけではありません。作品の品質と計算速度が急速に向上したのはここ 1 ~ 2 年であり、AI 絵画の同様に長い歴史を無視できます。
ここに画像の説明を挿入

1 月 27 日、Google は新しい AI モデル MusicLM をリリースしました。AI モデル MusicLM を通じて、テキストから直接高忠実度の音楽を生成できます。絵画制作分野でのテキスト生成AIモデルの人気に続き、音楽分野もジュークボックス(人工知能による音楽制作モデル)などに占有されようとしています。爆発を引き起こしています。

今日、私たちはスペインのコミージャス教皇大学の研究者によって提出されたレビュー論文「 ChatGPT だけが必要なわけではありません。大規模な生成 AI モデルの最先端のレビュー」の研究を続けています。

アプリケーション:ChatGPT だけで十分というわけではありません。大規模な生成 AI モデルの最先端のレビュー
発表者
: Roberto Gozalo-Brizuela、Eduardo C. Garrido-Merch ́an
: https://arxiv.org/pdf /2301.04655.pdf

最初の部分の内容を確認できます:
ポータル: ChatGPT が必要なすべてではありません。すべての SOTA 生成 AI モデルを 1 つの記事で読む: 6 つの主要企業の 9 カテゴリの 21 モデルの完全なレビュー (1)

この 2 番目のパートでは、画像からテキストへのモデル、テキストからビデオへのモデル、およびテキストからオーディオへのモデルの詳細を見てみましょう。

ここに画像の説明を挿入

Image-to-Text 模型

場合によっては、画像を説明するテキストを取得することも便利です。これは、画像生成の逆バージョンに相当します。

フラミンゴ

Flamingo は Deepmind によって開発された視覚言語モデルであり、オープンな視覚言語タスクでは、いくつかの入出力サンプルを通じてのみ少数ショット学習を実行できます。

具体的には、Flamingo の入力には、視覚条件下での自己回帰テキスト生成モデルが含まれており、画像またはビデオとインターリーブされた一連のテキスト トークンを受け取り、出力としてテキストを生成できます。Flamingo モデルは、視覚的なシーンを分析するビジョン モデルと、基本的な推論形式を実行する大規模な言語モデルという 2 つの相補的なモデルを活用します。言語モデルは大量のテキスト データでトレーニングされます。

ここに画像の説明を挿入

少数の注釈付きサンプルのみを使用して、多数のタスクに迅速に適応できるモデルを構築することは、マルチモーダル機械学習研究における未解決の課題です。しかし、Flamingo はまさにこの能力を備えており、(i) 強力な事前トレーニング済みのビジュアル モデルと言語モデルを接続し、(ii) 任意のインターリーブされたビジュアル データ シーケンスとテキスト データ シーケンスを処理し、(iii) 画像またはビデオを入力としてシームレスに取り込み、アーキテクチャを革新しました。 。Flamingo モデルはその柔軟性により、任意にインターリーブされたテキストと画像を含む大規模なマルチモーダル Web コーパス上でトレーニングできます。これは、Flamingo モデルに状況に応じた数回の学習機能を与える鍵となります。

ユーザーはモデルにクエリを入力し、写真やビデオを添付すると、モデルがテキストで回答します。以下の図 10 に示すように。

ここに画像の説明を挿入

ビジュアルGPT

VisualGPT は OpenAI によって開発された画像テキスト モデルです。事前トレーニング済み言語モデル GPT-2 に基づいて、異なるモダリティ間の意味論的な違いを埋めるための新しいアテンション メカニズムが提案されています。大量の画像テキスト データは必要ありません。テキスト生成の効率を向上させることができます。OpenAI はモデルにアクセスするための API を提供しています。

視覚情報を言語モデルのさまざまな層により効果的に融合するには、テキスト生成機能と視覚情報の混合のバランスをとるために特別に設計されたクロスアテンション融合メカニズムを検討できます。したがって、VisualGPT の革新的な点は、自己復活するエンコーダ/デコーダ アテンション メカニズムを採用し、少量のドメイン内画像テキスト データを使用して事前トレーニングされた LM を迅速に適応させることです。
ここに画像の説明を挿入

画像キャプションタスクでは、コンピューターが画像の視覚的な内容を自然言語で記述する必要があります。現在の画像記述モデルは主にエンコーダ デコーダ アーキテクチャに基づいており、大量のペアのグラフィック データをトレーニングすることで、より正確で詳細な画像記述を取得できます。しかし、手動でラベル付けされた大規模なトレーニング データの取得にはコストがかかり、インターネット上で自動的にクロールされたデータをクリーンアップした後は必ず何らかのエラーが発生します。また、医療画像レポートなどの一部の特定の分野では、大規模なトレーニング データを構築する条件がありません。データセット。

VisualGPT の最大の利点は、データ内に存在する問題を軽減するために、事前トレーニング済み言語モデル PLM をさまざまな分野の画像記述タスクに適応させることを初めて提案していることです。デコーダとしての gpt の構造を変更し、自己復活アクティベーション ゲート (SRAU) を挿入し、PLM によって事前に学習された言語知識と入力画像情報のバランスを取ることで、新しいオブジェクトの記述問題をより適切に解決し、最終的により高画質な画像、画像の説明。

以下の図 11 には、モデルに入力された 3 つの画像に関連する、モデルによって生成された 3 つのテキスト キューの例が含まれています。

ここに画像の説明を挿入

Text-to-Video 模型

2022 年後半には、テキストからビデオへの変換モデルがいくつか登場し、より高い解像度とフレーム レートを備えたモデルが期待されています。

フェナキ

Meta の Make-A-Video に続き、Google は Imagen Video と Phenaki という 2 つのビデオ モデルをリリースしました。この 2 つは、それぞれビデオの品質や長さなど、異なる機能を重視しています。

Google Research によって開発された Phenaki は、一連のテキスト キューを与えるとフォトリアリスティックなビデオ合成が可能なモデルです。Google はモデルにアクセスするための API を提供しています。

Phenaki は、オープンドメインの時間的に変化するキューからビデオを生成できる最初のモデルです。

トレーニング データが少ないという問題を解決するために、Google はまた、大規模な画像とテキストのペアのコーパスと少数のビデオとテキストの例を共同でトレーニングすることで、利用可能なビデオ データ セットの範囲を拡大しました。主に画像とテキストのデータセットには数十億の入力データが含まれる傾向がありますが、テキストとビデオのデータセットははるかに小さく、異なる長さのビデオを計算することも課題です。

Phenaki モデルは、C-ViViT エンコーダー、トレーニング トランスフォーマー、ビデオ ジェネレーターの 3 つの部分で構成されます。
ここに画像の説明を挿入

Phenaki は、新しいコーデック アーキテクチャ C-ViViT に基づいてビデオを個別のエンベディングに圧縮します。入力トークンを埋め込みに変換した後、タイミング トランスフォーマーとスペース トランスフォーマーを通過し、アクティブ化せずに単一の線形投影を使用してトークンをピクセル空間にマップし直します。

最終モデルは、オープンドメインのキューに基づいて、時間的に一貫性のある多様なビデオを生成でき、データセットに存在しないいくつかの新しい概念を処理することもできます。ビデオの長さは数分になる場合があり、モデルは 1.4 秒のビデオでトレーニングされます。一連のテキスト プロンプト、および一連のテキスト プロンプトと画像からビデオを作成する例を、以下の図 12 と図 13 に示します。

ここに画像の説明を挿入
ここに画像の説明を挿入

Phenaki は詳細なテキスト プロンプトを 2 分を超えるビデオに変換できますが、ビデオの品質が低下するという欠点があります。

サウンド化

ビデオ編集では、サウンドが話の半分を占めます。熟練したビデオ編集者は、映像の上にサウンド (エフェクトや環境など) をオーバーレイし、オブジェクトにキャラクターを追加したり、視聴者を空間に没入させたりします。しかし、プロのビデオ編集の場合、問題は適切なサウンドを見つけ、サウンド、ビデオを調整し、パラメータを調整することにあり、このプロセスは退屈で時間のかかるプロセスです。

この問題を解決するために、Soundify は効果音を生成することを目的として、動画に効果音をマッチングさせるシステムとして Runway が開発しました。ラベル付きスタジオ サウンド エフェクトのライブラリを活用し、優れたゼロショット画像分類機能を備えたニューラル ネットワークである CLIP を「ゼロショット ディテクタ」に拡張することにより、Soundify は学習またはオーディオ生成の状況で高品質の結果を生み出すことができます。

ここに画像の説明を挿入

具体的には、Soundify には分類、同期、ミックスの 3 つのモジュールが含まれており、モデルはまず音を分類することでエフェクトとビデオを照合し、次に各フレームとエフェクトを比較して、対応するサウンドエフェクトを挿入します。この分類は、ビデオ内のサウンドエミッターを分類することによる効果と一致します。さまざまなサウンドエミッターを減らすために、Soundify は絶対カラーヒストグラム距離に基づいてビデオをセグメント化します。同期部分では、エフェクト ラベルを各フレームと比較することでギャップが特定され、連続する一致を特定するためにしきい値処理されます。ブレンド セクションでは、エフェクトが約 1 秒のチャンクに分割され、重要な点として、チャンクがクロスステッチでステッチされます。

Text-to-Audio 模型

人気の AI ペイントを備えた Text-to-Image と比較して、Text-to-Audio は AI 合成も備えており、幅広い TTS (Text-to-speech) シナリオを備えています。TTS テクノロジーは、人気曲、楽曲、オーディオ ブックなどのコンテンツ作成だけでなく、ビデオ、ゲーム、映画やテレビの分野でのサウンドトラックの作成にも適用でき、音楽著作権の調達コストを大幅に削減できます。このうちAI作曲とは、簡単に言うと「言語モデル(現在はGoogle Megenta、OpenAI Jukebox、AIVAなどのTransformerに代表される)を媒介として、音楽データを(MIDI経由と)双方向変換すること」と理解できます。他のコンバージョン パス)」。

重要な非構造化データ形式は画像だけではありません。ビデオ、音楽、その他多くの環境にとって、オーディオは重要な要素となります。

AudioLM

AudioLM は Google によって開発され、長距離でも一貫した高品質のオーディオを生成するために使用できます。
ここに画像の説明を挿入

AudioLM は 3 つの部分で構成されます。

  • サウンドのシーケンスをトークンの離散シーケンスにマッピングするトークン生成モデル。このステップにより、シーケンスのサイズも小さくなります (サンプリング レートが約 300 分の 1 になります)。
  • シーケンス内の次のトークンを予測する可能性を最大化するデコーダー専用のトランスフォーマー。モデルには 12 層、16 個のアテンション ヘッドが含まれており、埋め込み次元は 1024、フィードフォワード層次元は 4096 です。
  • 予測されたトークンを音声トークンに変換する非トークン化モデル。

AudioLM の特別な機能は、入力オーディオを個別のトークン シーケンスにマッピングし、オーディオ生成を言語モデリング タスクに変換し、プロンプトの単語に基づいて自然で一貫した音色を生成する方法を学習することです。人間による評価では、人の声と思われる声が51.2%と合成音声の割合に近く、本物の人間に近い合成効果が得られていることがわかります。他のモデルと同様に、API は GitHub 経由で見つけることができます。
ここに画像の説明を挿入

多数の生のオーディオ波形でトレーニングされた AudioLM は、短い合図が与えられた場合でも自然でコヒーレントな連続音声を生成する方法を学習することに成功しました。この方法は、トレーニング中に記号表現を追加することなく、連続したピアノ音楽など、人間の声を超えた音声に拡張することもできます。
ここに画像の説明を挿入

オーディオ信号には複数の抽象化スケールが含まれるため、オーディオ合成中に複数のスケール間で一貫性を示しながら、高いオーディオ品質を達成することは非常に困難です。AudioLM モデルは、ニューラル オーディオ圧縮、自己教師あり表現学習、言語モデリングにおける最近の進歩を組み合わせることによって実現されます。

ジュークボックス

Jukebox OpenAI が開発した、歌詞付きの音楽を生成する作曲モデル。ただし、現在のモデルは依然として英語に限定されています。他のモデルと同様に、API は GitHub 経由で見つけることができます。

音楽を自動生成する初期の方法の 1 つは、演奏可能なスコアを生成するノート ジェネレーターでしたが、ノート ジェネレーターの最大の制限は、人間の声や、音色、ダイナミクス、表現力などのその他の音楽の詳細をキャプチャできないことです。 。

音楽を生のオーディオとして直接モデリングする別のアプローチもあります。しかし、オーディオ シーケンスが非常に長いため、オーディオ レベルで音楽を生成するのは非常に難しく、44 kHz、16 ビットの CD 音楽を例にとると、4 分の曲には 1,000 万時間かかることがあります。したがって、音楽の高レベルのセマンティクスを学習するには、モデルが非常に長い依存関係を処理できる必要があります。

一般に、自動生成された音楽モデルをトレーニングするには課題が必要です。元のオーディオの空間次元は非常に高く、大量の情報をモデル化する必要があります。主なボトルネックは、生のオーディオをモデリングすると非常に長距離の依存関係が直接導入され、音楽の高レベルのセマンティクスを理解することが計算的に困難になることです。ジュークボックスの特別な機能は、階層化された VQ-VAE アーキテクチャを通じてオーディオを個別の空間に圧縮して問題を解決しようとすることです。また、損失関数は最大量の情報を保持するように設計されており、この問題を解決するために使用されます。 AIがオーディオの高度な機能を学習するのは困難です。このモードは英語の曲に限定されています。具体的には、そのトレーニング データ セットは LyricWiki の 120 万曲から取得されており、そのうち 60 万曲は英語の曲です。VQ-VAE には 50 億のパラメータがあり、9 秒のオーディオ クリップで 3 日間トレーニングされます。

ここに画像の説明を挿入

歌詞処理の対応の問題を解決するために、ジュークボックスの研究者は、新しいニューラル ネットワーク ベースのツールも追加しました。

  • Spleeter は、音声認識のために曲からボーカルを抽出できます。
  • NUS AutoLyricsAlign、歌詞を曲に合わせます。
  • アテンション メカニズムにより、デコードされた音楽は、再生の進行に伴う歌詞コードの位置の変化に注意を払うことができます。

Jukebox の中国語はジュークボックスで、おそらく何を歌うかを意味します。ニューラル ネットワークに音楽の種類 (ジャンル)、参照歌手、歌詞を入力として提供する限り、対応する音楽 (メロディー、ハーモニー) を自動的に生成できます。 、そしてその曲の歌詞。GPT-2 に似た Transformer ベースのアーキテクチャのおかげで、Jukebox は多様で一貫した音楽を生成し、同じ曲の複数のレンディションを提供し、ユーザーに複数のオプションを提供できます。

ささやき

Whisper は、OpenAI によって開発された自動音声認識モデルです。OpenAI によると、このモデルはアクセント、背景雑音、専門用語に対して堅牢です。さらに、99 の異なる言語から英語への文字起こしと翻訳をサポートします。他のモデルと同様に、API は GitHub 経由で見つけることができます。
ここに画像の説明を挿入

まず、Whisper の最大の特徴は、使用する大規模なトレーニング セットです。インターネットから収集した 68 万時間の多言語、マルチタスクの教師付きデータをトレーニングに使用します。その結果、さまざまな環境、録音デバイス、言語からの音声をカバーする、非常に多様なデータセットが得られます。

2 番目に、Whisper アーキテクチャはシンプルなエンドツーエンドのアプローチ、特に Transformer のエンコーダ/デコーダ形式です。

ここに画像の説明を挿入

入力オーディオは 30 秒のセグメントに分割され、log-Mel スペクトログラムに変換されて、エンコーダーに渡されます。

デコーダーは、言語認識、多言語音声転写、英語音声翻訳などのタスクを実行するように単一モデルに指示する特別なトークンと混合された、対応するテキスト キャプションを予測するようにトレーニングされています。

ここに画像の説明を挿入

他のモデルと比較すると、英語音声認識が Whisper の主要な競争力です。

参考:

https://baijiahao.baidu.com/s?id=1746191197239679569&wfr=spider&for=pc

https://roll.sohu.com/a/634763268_121207965

https://baijiahao.baidu.com/s?id=1756520241186383004&wfr=spider&for=pc

https://openai.com/blog/whisper/

私の個人公開アカウント: HsuDanに注目してください。私の学習体験、ピット回避の概要、インタビュー体験、最新の AI テクノロジー情報について詳しく共有します。

おすすめ

転載: blog.csdn.net/u012744245/article/details/129049735