表現学習 (Representation Learning) Part1 -- 口実テキスト

マノリス・ケリス教授(MIT 計算生物学ディレクター)による「人工知能と機械学習」

主な内容は、表現学習のパート 1 - 口実テキスト (エージェント タスク/プレタスク/補助タスクなど) であり、特定のトレーニング タスクを達成するために設計された間接的なタスクとして理解できます。

以下の部分が含まれます: 推論構造、変換予測、再構成、時間利用、マルチモダリティ、インスタンス分類 (英語のカタログを参照)

以下はチューブへのリンクです。

生成モデル、敵対的ネットワーク GAN、変分オートエンコーダー VAE、表現学習

表現学習

表現学習: プレテキスト タスク、埋め込みスペース、知識表現、次の単語予測、画像配置予測、変分オートエンコーダー。

表現学習: これは、入力データを学習アルゴリズムに表現するためのより良い方法を自動的に特定することを目的とした機械学習アプローチです。正しいデータ表現があれば、分類や回帰などの下流タスクが容易になるはずだという考えです。

仮説タスク: 自己教師あり学習では、仮説タスクは補助タスクとして設計されており、モデルはラベルのないデータから豊富な特徴表現を学習し、その後メイン タスクに使用できます仮説タスクの例としては、文内の次の単語の予測、画像の完成、白黒画像のカラー化などがあります。

埋め込み空間: これらは、類似したオブジェクトが近接し、異なるオブジェクトが遠く離れた高次元ベクトル空間です。これらは、単語 (Word2Vec または GloVe)、文 (Sentence-BERT)、またはグラフ (グラフ ニューラル ネットワーク) などのカテゴリ変数または離散オブジェクトを表すためによく使用されます。

知識表現: これは、病状の診断や自然言語を使用した会話の実行など、複雑なタスクを解決するためにコンピューター システムが使用できる形式で世界に関する情報を表現することに焦点を当てた人工知能の分野の一部です。これには、特に、行動、時間、因果関係、信念の表現が含まれます。

次の単語の予測: これは、モデルが前の単語を考慮して文内の次の単語を予測する言語モデリングのタスクです。これは、シーケンス内の次のトークンを予測することを目的として、Transformer (GPT-3 や GPT-4 など) などの深層学習モデルをトレーニングするために一般的に使用されます。

画像位置予測: これは、何らかのコンテキストに基づいて画像の正しい位置または配置を予測することを目的とするタスクです。たとえば、漫画シリーズで 1 つのパネルが欠けている場合、タスクは欠けているパネルの正しい位置を予測することになります。この種のタスクでは、視覚的な物語とコンテキストをよく理解する必要があります。

変分オートエンコーダ (VAE) : これらは、複雑で扱いにくい確率モデルの効率的なベイジアン推論のためにニューラル ネットワークを使用する生成モデルです。VAE には、トレーニング データに似た新しいデータを生成できる特定のアーキテクチャがあります。これらは、異常検出、ノイズ除去、新しいサンプルの生成などのタスクに特に役立ちます。

ディープ ラーニングは、データ表現を理解して学習するための強力なフレームワークです。重要なアイデアは表現学習です。これは生データを、分類などのタスクに使いやすい、より意味のある形式に変換します。

  • 一般的に使用される深層学習モデルは畳み込みニューラル ネットワーク (CNN) で、画像分類タスクによく使用されます。一般的な CNN には、畳み込み層、ReLU (整流線形ユニット) アクティベーション層、プーリング層、全結合層などの複数の層が含まれています。
    • 畳み込み層では、モデルは畳み込み演算を通じて入力画像から特徴を抽出します。つまり、局所的な受容野における画像ピクセル間の相互作用です。
    • ReLU 活性化層は、非線形性を導入するためにすべての負の値を 0 に設定します。
    • プーリング層 (最大プーリングなど) は、モデルの空間サイズを削減し、モデルの堅牢性と計算効率を高めるために使用されます。
    • 全結合層はネットワークの終端にあり、以前に抽出された特徴を分析し、予測結果を出力するための分類子として使用されます。

ディープ ラーニングと従来のニューラル ネットワークの主な違いは、特徴抽出と分類という 2 つのタスクを組み合わせていることです分類タスクが特徴の抽出を推進しますこれは非常に強力で一般的なモデルですが、この分野はまだ初期段階にあるため、私たちはまだ革新を続ける必要があります

新しいアプリケーション ドメイン (イメージを超えたものなど) には、現在のアーキテクチャではキャプチャまたは利用できない構造が含まれる場合がありますたとえば、ゲノミクス、生物学、神経科学は、新しいアーキテクチャの開発を促進するのに役立つ可能性があります。

新しいアプリケーション ドメインには、現在のアーキテクチャでは捉えることも活用することもできない構造がある可能性があると言うとき、それはあたかも家具や家具の修理に役立つハンマー、ドライバー、レンチなどのあらゆる種類のツールが入った超高度なツールボックスを持っているようなものです。車は非常に効果的です。しかし、今のあなたの課題がおいしい夕食を作ることであるなら、鍋、ナイフ、オーブンなど、まだ道具箱に入っていない新しい道具が必要になるかもしれません。

同様に、畳み込みニューラル ネットワークやリカレント ニューラル ネットワークなどの現在の深層学習アーキテクチャは、画像、音声、テキスト データに対して非常に優れたパフォーマンスを発揮します。しかし、ディープラーニングをゲノミクス (DNA 配列解析)、生物学 (タンパク質構造予測など)、神経科学 (脳波解析など) などの新しい分野に適用しようとすると、既存のツールではうまくいかないことがわかるかもしれません。あまりフィットしません。これらのドメインのデータ構造をよりよく理解し、活用できる新しい深層学習アーキテクチャを開発する必要があるかもしれません。

例として、DNA 配列は 4 つの遺伝子 (A、T、C、G) からなる長い文字列として見ることができます。この種のデータはテキストと同様の方法で処理できますが、DNA 配列には特別な構造と特性 (1 つのアミノ酸をコードする 3 つの遺伝子など) があり、現在の深層学習アーキテクチャでは十分に活用できない可能性があります。したがって、特にこれらの特性を捉えて活用するには、新しいアーキテクチャを開発する必要があるかもしれません。

  • 教師なし学習における表現学習
  • ラベル付きデータのないデータから有用な表現を学習する 方法。
    • 未来の予測:リカレント ニューラル ネットワーク(RNN)の使用やビデオ シーケンスの次のフレームの予測など。この設定では、将来の予測がデータ表現を学習する方法になります。
    • 圧縮: オートエンコーダーは、低次元表現 (潜在空間と呼ばれる) から入力を再構築しようとするニューラル ネットワークの一種であり、圧縮の一種とみなすこともできます。
    • 口実タスク: これは、関心のあるタスクを直接解決するのではなく、有用な表現の学習を促進することを目的とした構築タスクです。たとえば、画像の欠落部分の予測、画像の回転角度の予測、白黒画像のカラー化、低解像度画像のアップサンプリングなどです。
    • パラメーター分布 (突然変異) のキャプチャ:変分オートエンコーダー (VAE)は、この分布を通じてサンプリングされた潜在表現が入力データに類似した新しいデータを生成できるように、入力データの潜在確率分布を学習しようとします。
    • **潜在空間パラメーターを意味のあるものにする:** 潜在空間は、各次元が特定の意味を持つように設計でき、直交、明示、または調整可能にすることができます。
    • **トレーニングに 2 番目のネットワークを使用する: **対立ネットワーク (GAN) の生成には、生成ネットワークと識別ネットワークが含まれます。この 2 つの対立トレーニングを通じて、生成ネットワークはより優れた偽データを生成できます。
  • **無限の可能性:** 上記は既存の手法のほんの一部であり、この分野には無限の可能性が私たちの探索を待っています。あなたの革新的なアイデアが新たな道を開くかもしれません。

一般に、この文章のトピックは、教師なし学習または自己教師あり学習による、ラベル付きデータを使用しない表現学習です。この学習アプローチは、ラベルのない大量のデータから有用な知識を学習するための強力なツールを提供します。

この記事は Pretext タスクに関するものです

深層学習の分野では、自己教師あり学習は教師なし学習の一種であり、トレーニング信号 (別名ラベル) が人間によって提供されるのではなく入力データ自体から生成されます。このアプローチの目標は、プロキシ タスクの結果を気にせずに適切なデータ表現を学習することです。

プロキシ タスクは、入力データ自体から監視信号を導き出すことができるタスクを構築することによる自己教師あり学習の実装です。実際、エージェント タスク自体の結果は気にせず、モデルが有用なデータ表現(写真の中の猫を実際に認識するなど)を学習できるかどうかだけを気にします。

エージェントのタスクは、次のカテゴリに大別できます。

  1. **構造の推論:** このタイプのタスクでは、モデルが入力データから何らかの構造またはパターンを推論する必要があります。
  2. **変換予測:** このタイプのタスクでは、モデルが回転、平行移動、スケーリングなどのデータの変換を予測する必要があります。
  3. **再構築:** このタイプのタスクでは、通常は何らかの変換 (ノイズの追加など) の後にモデルが入力を再構築する必要があります。オートエンコーダーはそのようなタスクの例です。
  4. **時間の活用:** このタイプのタスクでは、モデルはデータの時系列を理解するか、将来のイベントを予測する必要があります。たとえば、自然言語処理では、モデルが次の単語を予測する必要がある場合があります。
  5. **マルチモーダル タスク:** これらのタスクには画像やテキストなどの複数の種類のデータが含まれ、目標はモダリティ全体での表現を学習することです。
  6. **インスタンスの分類:** これは、各データ インスタンスが独自のクラスとして扱われる特殊なタイプのタスクです。

これはエージェントのタスクの大まかな分類にすぎず、一部のタスクは複数のカテゴリに当てはまる場合があることに注意してください。

構造の推測



  1. コンテキスト予測:これは、モデルが入力の一部を入力の他の部分から予測することを学習する自己教師あり学習方法です。これは、画像内のオブジェクトの部分や特徴を理解するのに便利な方法です。ただし、このアプローチでは、トレーニング画像が標準 (標準) 方向で撮影されていることを前提としていますが、これは常に真実であるとは限りません。
  2. コンテキスト予測の欠点:コンテキスト予測にはいくつかの問題があります。
    • まず、すべての画像が 1 つの標準的な方向から取得されていると想定していますが、これは現実と一致しない可能性があります。たとえば、雲を撮影する場合、標準的な方向はありません。
    • パッチ(一部)を使ってトレーニングするが、全体的な表現を学びたい。
    • 第 2 に、これらのモデルはテスト時に利用できなかったヒントを使用して「不正」を行うことが多いため、これらのモデルを設計する際には特別な注意を払う必要があります。データ分布の違い、およびおそらくトレーニングにおけるきめの細かい区別の欠如により、トレーニングと評価の間にギャップが存在します。
    • 分類器が他の画像からの否定的な例 (認識しようとしていない例) を使用してトレーニングされていない場合は、制限がある可能性があります。たとえば、否定的な例がなければ、猫の目と犬の目を区別できない可能性があります。
    • 小さな出力スペース: これは、モデルが限られた数のクラスまたはケースを予測する問題を指すようです。この例では、モデルは 8 つの異なる位置しか区別できない可能性があるため、モデルの有効性が制限される可能性があります。

以下は、私個人のリスニングが少し抽象的であり、gpt4 に対して提起された質問と回答の一部は省略できるためです。実際、表現学習は多くの表現 (特徴) を自動的に学習することを意味しますが、この機能はより高度であり、機械学習で人間が 1 つずつ特徴を作成するよりもはるかに大きな可能性を秘めています。

コンテキスト予測による教師なし視覚表現学習

教師なし視覚表現学習の基本概念: コンテキスト予測による教師なし視覚表現学習は、機械学習モデルがラベルなしの入力画像から有用な表現を学習できるようにすることを目的とした自己教師あり学習方法です。この学習方法は、画像内のコンテキストを予測することによって機能します。通常は、画像の一部を予測して画像の他の部分を理解することによって機能します。

概念を説明するために簡単な例を見てみましょう。

ボールで遊んでいる猫の写真があるとします。この写真をいくつかの部分に切り取り、そのうちの 1 つをランダムに削除します。私たちのタスクは、削除された部分が何になるかを予測することです。

このタスクでは、モデルは、猫の形状、ボールの色と形状、画像内のそれらの相対位置など、さまざまな状況に応じた手がかりを理解する必要があります。このようにして、モデルは猫とボールの視覚的表現とそれらの空間的関係を学習できます。そうすることで、テスト時に猫やボールの新しい写真に遭遇した場合でも、モデルは学習した表現に基づいてそれらを理解し、分類できます。

これは、コンテキスト予測による教師なし視覚表現学習の基本概念です。これは自己教師あり学習方法、つまり人間によるラベルなしで学習するため、大量のラベルなしデータを処理できることに注意してください。

  • 2 番目の質問は空間を表します

機械学習における「表現空間」とは、一般に入力データのモデルの内部表現を指します。CNN では、畳み込み層とプーリング層 (存在する場合) が入力画像を処理し、複雑な特徴マップを生成します。この特徴マップは、モデル内の入力画像を表現したものです。これらの表現は、色、テクスチャ、形状など、画像に関する多くの情報をエンコードします。

教師なし視覚表現学習におけるモデルの目標は、コンテキスト予測などの予測タスクに最も役立つ表現を見つけることです。この場合、モデルの表現空間が画像内の重要な特徴と構造をキャプチャできることを期待しています。

CNN を例として、コンテキスト予測タスクを使用して CNN をトレーニングするとします。トレーニング中に、CNN の畳み込み層は、特徴マップ (つまり、表現空間) にエンコードされた画像から有用な特徴を抽出する方法を学習します。トレーニング後、CNN はコンテキスト予測タスクに役立つ表現を生成できるようになります。

これは、教師なし視覚表現学習と表現空間との関係です。教師なし学習の目標は、予測タスクに役立つ表現を見つけることです。

  • 3 番目の質問は、表現空間をどのように定量化するかです。

表現空間は定量化可能です。畳み込みニューラル ネットワーク (CNN) では、表現空間は通常、ネットワーク内の 1 つ以上の層の出力を指します。これは、元の入力 (画像など) の一種のエンコードまたは表現です。これらの表現は通常、多くの次元を持つ数値ベクトルであるため、量子化可能です。

新しい画像に特有の表現空間は次のように機能します。

  1. まず、新しい画像がトレーニングされた CNN に供給されます。
  2. CNN の畳み込み層が画像の処理を開始し、各層が画像のいくつかの特徴を抽出します。初期のレイヤーはエッジや色などの基本的な特徴を抽出する場合がありますが、より深いレイヤーではオブジェクトの一部または全体などのより複雑な特徴を抽出する場合があります。
  3. これらの抽出された特徴は、モデル内の新しい画像の表現、つまり「表現空間」内の点を構成します。これらの表現は通常、最終的な予測タスク (分類など) を達成するためのさらなる処理のために完全に接続された層または他のタイプの層に供給されます。

例として、猫と犬を区別するための CNN があるとします。新しい猫の写真を与えます。CNN の畳み込み層は、画像内のさまざまな特徴を抽出し、表現を生成します。この表現は、形状、色、質感など、写真内の猫に関する多くの情報をキャプチャします。次に、この表現は完全に接続された層に入力され、この層はこの表現からラベル「猫」を予測します。これは、新しい画像を扱うときに表現空間が行うことです。

  • ジグソー問題: さらに複雑

変態予測

回転予測

  • 画像が何度回転するかを予測します。モデルは画像が何度回転するかを予測するようにトレーニングされています

まず、画像がランダムに角度 (90°、180°、270° など) で回転され、ニューラル ネットワーク (ConvNet など) に入力されます。モデルのタスクは、この回転角度を予測することです。これは実際には 4 クラスの分類問題であるため、このプロセスは分類損失によって最適化できます (0°、90°、180°、270° の 4 つの回転のみを考慮すると仮定します)。

アドバンテージ:

  • やり方は簡単で、かなりうまく機能します。

欠点:

  • トレーニング画像はすべて標準の向きで撮影されたものであると仮定します (そして標準の向きが存在すると仮定します)。
  • トレーニングと評価のギャップ: 評価フェーズでは回転された画像はありません。
  • 他の画像からのネガティブな例がないため、精度は厳密ではありません。たとえば、猫と犬を区別する必要はありません。
  • 出力スペースが小さい - 区別する必要があるのは 4 つのケース (回転) だけであり、カテゴリを追加するのは簡単ではありません。
  • 空のみを識別する必要があるストリート ビュー画像など、一部の領域では、このアプローチは単純すぎる場合があります。

この方法には制限がありますが、ラベルなしの視覚表現を学習するためのシンプルかつ効果的な方法が提供されることに注意してください。これは、大規模なラベルなしのデータセットに非常に役立ちます。

  • Q: 自己教師あり学習とは何ですか
    • A: 入力データ自体からラベルを生成するこの方法は、自己教師あり学習と呼ばれます。自己教師あり学習は、モデルが入力データ自体から教師信号を受信できるようにタスク (画像の回転角度の予測など) を設計することによる教師なし学習の一種です。通常、大量のデータに手動でラベルを付けると時間とリソースが大量に消費されるため、このアプローチでは手動でラベルを付ける必要がありません。これが主な利点です。
    • 「回転予測」の例では、モデルの目的は、画像が回転される角度を予測することです。この角度は、入力データ自体から取得されるラベルです。このようにして、モデルは人間によるラベルなしで有用な視覚表現を学習できます。これが自己教師あり学習の基本的な概念です。
  • 以前のコンテキスト予測ラベルはどこから来たのでしょうか?
    • コンテキスト予測の自己教師あり学習タスクでも、同様に入力データ自体からラベルが生成されます。ラベルを生成する方法は、使用する特定のコンテキスト予測タスクによって異なります。
    • 一般的なコンテキスト予測タスクを例として、画像内の欠落部分を予測します。このタスクでは、まず画像の一部を入力として選択し、次に画像の別の部分を予測するオブジェクトとして選択します。この目標はあなたのラベルですたとえば、画像の左半分を入力としてランダムに選択し、右半分をターゲットとして使用することができます。この場合、右半分の画像がラベルになります。
    • これはコンテキスト予測タスクの可能な形式の 1 つにすぎないことに注意してください。このようなタスクを設計するには、特定の目標とデータに応じてさまざまな方法があります。ただし、これらすべての場合において、ラベルは入力データ自体から直接生成されます。このため、この学習方法は自己教師あり学習と呼ばれます。

相対変換予測

  • 相対変換予測。2 つの画像間の変換を推定するための自己教師あり学習戦略です。通常、このアプローチには適切な特徴抽出が必要です。

このアプローチでは、モデルの目的は、ある画像から別の画像への変換を推定することです。2 つのイメージ x と t(x) があるとします。t(x) は、何らかの変換 (回転、スケーリングなど) 後の x のイメージです。モデルはまず、E(x) と E(t(x)) として示されるこれら 2 つの画像の特徴を抽出し、次に E(x) から E(t(x)) への変換を予測します。

  • アドバンテージ:

    • 従来のコンピュータ ビジョン手法と連携して、たとえば、画像マッチング用に SIFT (スケール不変特徴変換) が開発されました。
  • 欠点:

    • トレーニングと評価のギャップ: 評価フェーズでは変換されたイメージはありません。

    • 他の画像からのネガティブな例がないため、精度は厳密ではありません。たとえば、猫と犬を区別する必要はありません。

    • セマンティクスと低レベルの機能の重要性について疑問があります (セマンティクスに関心があると仮定して)。

      • 特徴は変換に対して不変ではない可能性があります。

復興

リファクタリングし、元の部分を破棄し、予測を再学習する

ノイズ除去オートエンコーダー

再構成に基づく自己教師あり学習方法、つまりノイズ除去オートエンコーダー (Denoising Autoencoders) を使用する方法。ノイズ除去オートエンコーダーは、ノイズを含む入力信号を受け取り、元の汚染されていない信号を再構築しようとする特別な種類のオートエンコーダーです。

ノイズ除去セルフエンコーダーは、エンコーダー (Encoder) とデコーダー (Decoder) の 2 つの部分で構成されます。エンコーダは入力信号を中間表現にエンコードし、デコーダはこの表現をデコードして元の信号空間に戻します。ノイズ除去オートエンコーダーは、再構成損失 (デコーダーの出力とノイズに汚染されていない元の信号 (表現) との差) を最小限に抑えることで、ノイズの多い入力

たとえば、ノイズ除去オートエンコーダーを使用して、手書きの数字の画像から有用な特徴を抽出できます。ランダムなピクセルが画像に追加されるなど、画像がノイズによって汚染されている場合でも、ノイズ除去オートエンコーダーはノイズのある画像から手書きの数字に関する有用な情報を抽出する方法を学習できます。

  • アドバンテージ:

    • ノイズ除去オートエンコーダーは、シンプルで古典的なアプローチです。

    • 有用な表現を学習できることに加えて、デノイザーも無料で入手できます。

  • 欠点:

    • トレーニングとギャップの評価: ノイズのあるデータのトレーニング。

    • このタスクは過度に単純化されている可能性があり、意味論的な理解は必要ない可能性があります。低レベルの手がかりで十分な場合があります。

オートエンコーダーのノイズ除去は自己教師あり学習における効果的なアプローチですが、意味論的な深い理解が必要な一部の複雑なタスクでは単純化しすぎる可能性があります。ただし、この方法は、特にノイズの除去やノイズに汚染された信号の復元が必要な場合には非常に役立ちます。

コンテキストエンコーダ

リファクタラーの別のバージョン

予測する最も効果的な方法は、それが何であるかを理解することです

「コンテキストエンコーダー」。コンテキスト エンコーダは、画像の遮蔽された部分または欠落した部分を予測しようとします。この方法は、word2vec や BERT モデルのマスクされた言語モデル タスクなどの自然言語処理の分野でも一般的です。

この方法では、モデルの入力は遮蔽または欠落した画像の一部であり、モデルのタスクは遮蔽または欠落した部分を予測することです。これには通常、モデルが画像のコンテキスト情報を理解する必要があります。これは、モデルが画像のコンテキストを理解することによってのみ、遮蔽された部分または欠落している部分が何であるかを予測できるためです。

たとえば、画像に象が示されているが、象の一部が遮蔽されている場合、モデルがそれが象であることを理解していれば、遮蔽された部分が何であるかを正確に予測できる可能性があります。

  • アドバンテージ:

    • きめ細かい情報を保存する必要があります。

    • 再構成 + 知覚損失: 画像をよりよく理解できるようにモデルをトレーニングするために使用できます。

  • 欠点:

    • トレーニングと評価のギャップ: 評価フェーズ中にオクルージョンはありません。

    • リファクタリングタスクは非常に困難で曖昧な場合があります。

    • 正確な色、きれいな境界線など、「役に立たない」細部に多くの労力が費やされました。

コンテキスト エンコーダは、扱うのが複雑で曖昧なタスクになる可能性がありますが、画像コンテキストの表現を理解する方法を学習するための強力な方法を提供します。これは、多くのコンピューター ビジョン タスクにとって非常に価値があります。

カラー化

画像の色再構成タスクの概要。このタスクでは、モデルはグレースケール画像を入力として受け取り、元のカラー画像を予測しようとします。

このプロセスでは、エンコーダ (Encoder) がまず入力グレースケール画像を中間表現 (Representation) にエンコードし、次にデコーダ (Decoder) がこの表現からカラー画像の再構築を試みます。再構成の品質は、予測されたカラー イメージと元のカラー イメージの差である再構成損失によって測定されます。

  • アドバンテージ:
    • モデルはカラー画像を予測するためにグレースケール画像から十分な情報を抽出する必要があるため、きめ細かい情報を保存する必要があります。
  • 欠点:
    • グレースケール画像からカラー画像を再構成するには、モデルが複雑な色の関係を理解する必要があり、多くの場合これが困難であるため、再構成タスクは非常に困難かつ曖昧になる可能性があります。
    • 正確な色や美しい境界線など、「役に立たない」細部に多くの作業を加える必要があります。
    • 評価はグレースケール画像に対して実行する必要がありますが、グレースケール画像には色情報が含まれていないため、一部の情報が失われる可能性があります。

スプリットブレインエンコーダ

このセクションでは、「スプリット ブレイン エンコーダ」として知られる特別な形式の「コンテキスト エンコーダ」について説明します。このタイプのモデルでは、入力画像が 2 つの部分に分割され、各部分がモデルの一部によって処理され、モデルは他の部分に関する情報を予測しようとします。

たとえば、カラー イメージはグレースケール チャネルとカラー チャネルに分解できます。次に、モデルの 1 つの部分はグレースケール チャネルで動作してカラー チャネルを予測しようとし、もう 1 つの部分はカラー チャネルで動作してグレースケール チャネルを予測しようとします。したがって、モデルは画像のある部分から他の部分に情報を推測する方法を学習する必要があります。

2 つの予測結果が融合されて、最終的な予測結果が得られます。

アドバンテージ:

  • モデルは画像のある部分から他の部分へ情報を推論する必要があるため、きめの細かい情報を保存する必要があります。

欠点:

  • 画像のある部分から他の部分への情報を推論するには、モデルが複雑な色と明るさの関係を理解する必要があるため、再構成タスクは非常に困難で曖昧になる可能性があります。
  • 正確な色や美しい境界線など、「役に立たない」細部に多くの作業を加える必要があります。
  • 入力のさまざまな部分を処理する必要があるため、モデルのトレーニングと評価が難しくなる可能性があります。

インスタンスの分類

**インスタンスの分類:** これは、各データ インスタンスが独自のクラスとして扱われる特殊なタイプのタスクです。

模範的な ConvNet

教師なし特徴学習方法である畳み込みニューラル ネットワークの例

畳み込みニューラル ネットワークの例は、単一の画像から複数の歪んだ作物を抽出し、どの作物が同じ元の画像からのものであるかをモデルに判断させることで機能します。モデルが幾何学的変換や色の変換などの必要な変換に対して堅牢であれば、このタスクは比較的簡単です。モデルは、K 個の「カテゴリ」を分類することによってこれを行います (ここでのカテゴリは実際には元の画像です)。

  • アドバンテージ:

    • この方法で学習した表現は、必要な変換に対して不変です。

    • きめ細かい情報を保存する必要があります。

  • 欠点:

    • 適切なデータ拡張方法を選択することが重要です。

    • 典型的なアプローチとして、同じクラスまたはインスタンスの画像はネガティブ サンプルですが、モデルが背景に焦点を合わせるのを防ぐメカニズムはありません。

    • 元の設計はスケーラブルではありませんでした (「カテゴリ」の数はデータセットのサイズと等しいため)。

このアプローチの重要なアイデアは、同じ画像からの複数の歪んだカットを使用して、画像内のオブジェクトに対して堅牢になるようにモデルをトレーニングすることです。これには、モデルが色と形状の変化を無視してオブジェクトの認識に集中できる必要があります。画像のオブジェクト。

指標学習による模範的な ConvNet

メトリクス学習を使用した Exemplar ConvNet を実装する方法。

元のパラダイム ConvNet には、「カテゴリ」の数がトレーニング画像の数と等しいというスケーラビリティの問題があります。この問題を解決するには、指標学習によってタスクを再形成できます。

計量学習は、同じカテゴリのデータ ポイント間の距離が小さくなり、異なるカテゴリのデータ ポイント間の距離が大きくなるように、データ ポイント間の距離計量を学習することを目的とした方法です畳み込みニューラル ネットワークの例では、Contrastive Loss や Triplet Loss などの従来の計量学習損失関数だけでなく、より最近の InfoNCE 損失関数も使用できます。

InfoNCE 損失関数

InfoNCE 損失関数は、CPC、AMDIM、SimCLR、MoCo などの最近の多くの手法で使用されている特に人気のあるバージョンです。これは順位の低下のように機能します。クエリとポジティブの組み合わせの場合は近くになるはずですが、クエリとネガティブの組み合わせの場合は遠くなるはずです。実装の観点からは、これは分類の損失と見なすことができますが、ラベルと重みは置き換えられます。

図の右側では、上記は従来の分類であり、ワンホット エンコーディング、非常に長いベクトルである可能性があります。2 番目に、次は計量学習です。これは、異なるサンプル間の類似性を学習し、それを潜在空間にマッピングします。

このアプローチの主な利点は、例示された畳み込みニューラル ネットワークの問題を、学習された表現がデータ ポイント間の類似性の尺度を保持する、よりスケーラブルな問題として再定式化できることです。これにより、負のサンプルを選択または生成する方法など、いくつかの新しい課題が生じる可能性がありますが、自己教師あり学習の新たな可能性も開かれます。

少し抽象的な例としては、

さまざまな品種の犬の写真がいくつかあるとします。私たちの目標は、トレーニング中にそのような犬の写真を見なかった場合でも、機械がさまざまな種類の犬を区別できるように学習することです。

元の例の畳み込みニューラル ネットワークでは、犬の各画像を別個の「カテゴリ」として扱います。次に、各犬の写真から複数のクリップをランダムに切り出し、それらのクリップが同じ犬の写真からのものであるかどうかをネットワークに判断させます。このアプローチの問題は、非常に多数の犬の写真がある場合、非常に多くの「カテゴリ」が存在することになり、ネットワークのトレーニングが非常に困難になることです。

そこで、計量学習に移ります。計量学習では、犬の各写真が別個の「カテゴリ」を構成するかどうかはもはや気にされません。代わりに、異なる犬の写真間の「類似性」のみを考慮します。各犬の写真について、そのセグメントを「クエリ」としてランダムに切り取り、次に他の犬の写真から他のセグメントをランダムに切り取ります。そのうちのいくつかは同じ犬の写真からのもの (これらは「ポジティブ サンプル」です)。セグメントはさまざまな犬の写真から取得されます (これらは「ネガティブ サンプル」です)。次に、クエリと正のサンプルの間の距離が小さくなり、クエリと負のサンプルの間の距離が大きくなるようにネットワークをトレーニングします。

このようにして、トレーニング中にそのような犬の写真を見たことがない場合でも、ネットワークにさまざまな種類の犬を区別する方法を教えることができます。なぜなら、ネットワークは犬の写真をすべて記憶するのではなく、犬の写真間の「類似性」を判断する方法を学習するからです。これは、例の畳み込みニューラル ネットワークへの計量学習の適用です。

対照予測コーディング (CPC)

対照予測コーディング (CPC) は、主に教師なしデータの有用な表現を学習するために使用される自己教師あり学習手法です。

CPC の基本的な考え方は、データの将来の部分を予測し、対照的な損失 (InfoNCE 損失など) を使用して予測をトレーニングすることです。画像処理のコンテキストでは、CPC は画像の 1 つのブロックからその下にある他のブロックの表現を予測できます。次に、予測された表現と実際の表現を比較し、この結果を他のネガティブ サンプル (つまり、他の画像または同じ画像の他のブロック) と比較します。この目的は、ネットワークがデータの本質的な構造とコンテキスト情報をよりよく理解できるようにすることです。

上に青い空、中央に緑豊かな木々、そして下に湖がある自然の風景である写真があると想像してください。

CPC では、この画像を空、木々、湖の 3 つの領域 (またはパッチ) に分割します。次に、領域 (空など) を選択し、その下にある領域 (木) の表現を予測してみます。このプロセスは「コンテキスト予測」と呼ばれます。

次に、ニューラル ネットワークを使用して予測されたツリー領域の表現を生成し、それをツリー領域の実際の表現と比較して、予測された表現が実際の表現に近いかどうかを確認します。同時に、他の画像 (空の場合もある都市景観の画像など) からいくつかの負のサンプルも取得し、予測された表現がこれらの負のサンプルから十分に離れているかどうかを確認します。

このようなトレーニングを通じて、ニューラル ネットワークは、1 つの領域 (空など) に基づいて次の領域 (木など) を予測する方法を学習します。このようにして、テスト段階であっても、ニューラル ネットワークが空の一部しか見ていない場合でも、建物や海などの他の物体ではなく、下に木がある可能性があることを正確に予測できます。

CPC の利点は次のとおりです。

  1. 画像、ビデオ、オーディオ、自然言語処理などの多くの分野に適用できる一般的なフレームワークです。
  2. データの特性をより深く理解するのに役立つ、きめ細かい情報を保存する必要があります。
  3. これは、ネットワークがコンテキスト予測を通じてオブジェクトのさまざまな部分を学習するのに役立ちます。

ただし、CPC にはいくつかの欠点もあります。

  1. これは見本ベースです。つまり、同じカテゴリまたは同じインスタンスの画像がネガティブ サンプルと見なされます。これはモデルのパフォーマンスに影響を与える可能性があります。
  2. トレーニングと評価のギャップ: CPC は、トレーニングには画像の小さなパッチを使用し、評価には画像全体を使用します。これにより、トレーニングと評価の間に一定のギャップが生じる可能性があります。
  3. CPC は、トレーニング画像が正規化された角度で撮影される (そしてそのような正規化された角度が存在する) ことを前提としているため、その適用性が制限される可能性があります。
  4. CPC のトレーニング プロセスは、画像を多数の小さなブロックに分割する必要があるため、遅くなる場合があります。

時間を活用する

物体の動きを観察する

「オブジェクトの動きを観察する」は、どのピクセルが移動するかを予測することを主な目的とする自己教師あり学習方法です。オブジェクトをセグメント化できれば、このプロセスは比較的簡単になる傾向があります。

具体的には、ネットワークは画像から特徴を抽出し、画像の次のフレームでどのピクセルが移動するかを予測しようとします。この予測はピクセル単位で行われるため、この方法にはピクセルレベルのラベルが必要です。これらのラベルは通常、外部のモーション セグメンテーション アルゴリズムによって生成されます。

「オブジェクトの動きを観察する」ことには次のような利点があります。

  1. 自発的動作:どのピクセルが移動するかを知ることは、オブジェクトの境界を理解するのに非常に役立つため、ネットワークはオブジェクトがセグメントをセグメント化する (オブジェクトを分離する、オブジェクトの概念を理解する)能力を自発的に学習する可能性があります。
  2. トレーニングと評価のギャップがない: トレーニングと評価のフェーズ中、ネットワークはピクセルレベルの予測を行い、常にトレーニングと評価を同時に行うため、トレーニングと評価のギャップはありません。

ただし、このアプローチにはいくつかの欠点もあります。

  1. 「死角」: 静止オブジェクトの場合、この方法は主に移動するピクセルに焦点を当てているため、正しく処理できない可能性があります。
  2. 大きくて目立つオブジェクトに過度に焦点を当てる可能性がある: 大きくて目立つオブジェクトは、より多くの移動ピクセルを生成する傾向があるため、ネットワークは、小さいオブジェクトやあまり目立たないオブジェクトを無視して、これらのオブジェクトに過度に焦点を合わせる可能性があります。
  3. 外部モーション セグメンテーション アルゴリズムへの依存: ピクセル レベルのラベルの生成にはモーション セグメンテーション アルゴリズムが必要です。そのため、この方法のパフォーマンスはモーション セグメンテーション アルゴリズムのパフォーマンスに大きく依存します。
  4. 時間ネットワークには拡張できません: ビデオ データを処理するとき、ネットワークは画像の各フレームの移動ピクセルを予測する必要がありますが、画像の次のフレームが予測される場合、このタスクは非常に簡単になります。画像 現在のフレーム画像と同じです。

色分けによる追跡

「Color Pursuit」は自己教師あり学習方法であり、その主な目的は、以前のフレームの色情報を使用して新しいフレームに色を付けることです。すべてのオブジェクトを追跡できれば、この作業は比較的簡単になります。

具体的には、ネットワークは参照フレーム (色付けされたフレーム) から色情報を抽出し、この色情報を使用して入力フレーム (色付けされていないフレーム) を色付けする必要があります。これは、ビデオ内の色情報の動きを追跡することに相当します。

カラー トラッキングの利点は次のとおりです。

  1. 自発的な動作: ネットワークは、トラッキング、マッチング、オプティカル フロー、セグメンテーションなどの技術を自発的に学習する可能性があります。これらの技術は、参照フレームから色情報を正しく抽出し、それを入力フレームに適用するのに非常に役立ちます。

ただし、このアプローチにはいくつかの欠点もあります。

  1. 低レベルの手がかりは効果的です。色情報は非常に直接的な低レベルの手がかりであるため、ネットワークはこれらの手がかりに依存して学習する一方で、より高レベルでより意味論的な情報を無視する可能性があります。
  2. グレースケール フレームでの評価: 入力フレームは色付けされていないため、ネットワークはグレースケール フレームで評価する必要があり、その結果、一部の色情報が失われます。

時間的順序付け

「このフレーム シーケンスのセットは正しい順序にありますか」は、ビデオ フレームのセットが正しい時間順序にある​​かどうかを判断することを主な目的とする自己教師あり学習方法です。ビデオ内の動作や人間のポーズを認識できれば、この作業は比較的簡単になります。

具体的には、ネットワークはフレームごとに特徴を抽出し、これらの特徴を分析してフレームのシーケンスが正しい順序であるかどうかを判断する必要があります。これは、時間の経過に伴う動きや人間の姿勢の変化を追跡することに相当します。

「この一連のフレームを正しい順序で配置する」ことには、次のような利点があります。

  1. トレーニングと評価のギャップがない: トレーニングと評価の両方のフェーズで、ネットワークが順序を判断しているため、トレーニングと評価のギャップはありません。
  2. 人間のポーズを認識する能力の学習: このタスクを成功させるにはビデオ内の動作と人間のポーズを認識する必要があるため、ネットワークはこのタスクを解決する過程で人間のポーズを認識する能力を学習する可能性があります。

ただし、このアプローチにはいくつかの欠点もあります。

  1. 主に人間のポーズに焦点を当てる: この方法は主に人間のポーズに焦点を当てますが、異なるアクションが同じ人間のポーズを持つ可能性があるため、人間のポーズのみに基づいてフレーム シーケンスの正しい順序を決定することが不可能な場合があります。
  2. スケーラビリティに疑問がある: この方法はフレーム シーケンスを処理する場合にはうまく機能しますが、時系列ネットワーク (RNN など) を扱うように拡張できるかどうかは疑問です。大きくなりすぎる、シンプル。

さらに、このメソッドにはいくつかの拡張方向があります。

  1. N 個のフレームの中にランダムにフレームを配置し、このフレームを見つけます。これには、ネットワークがフレーム シーケンスの正しさを判断するだけでなく、このシーケンスに属さないフレームを見つけることも必要になります。
  2. ランキング損失を使用します。ネットワークは、時間的に近いフレームに対しては同様のエンベディングを生成し、時間的に遠いフレームに対しては異なるエンベディングを生成する必要があります。これには、ネットワークがフレーム間の時間的距離を認識できる必要があります。

マルチモーダル

バッグオブワード (BoW)

「Bag-of-Words (BoW)」は、自然言語処理やコンピューター ビジョンで一般的に使用される手法であり、基本的な考え方は、入力 (テキストや画像など) を一連の「単語」と「単語」に分解することです。次に、この入力を表す「単語のバッグ」を構築します。

自然言語処理では、「単語」はテキスト内の単語ですが、コンピューター ビジョンでは、「単語」は画像内の局所的な特徴や特定のパターンになることがあります。

まず、事前学習済みの自己教師あり畳み込みニューラル ネットワークを使用して画像の特徴抽出を実行します。次に、抽出された特徴を視覚的な語彙に割り当てて、「視覚的な単語のバッグ」を形成します。次に、画像に対してランダムな摂動 (回転、トリミングなど) を実行し、摂動された画像から元の画像の「単語の袋」を予測してみます。

より一般的な例でこの概念を説明してみてください。猫、犬、ウサギなどの複数の動物が含まれる画像があるとします

Bag-of-Words (略して BoW) を使用する方法では、まず、画像内の特徴を認識して抽出できる事前トレーニング済みのニューラル ネットワーク モデルが必要です。たとえば、この例では、ニューラル ネットワーク モデルは、猫の特徴 (尻尾、耳、目など)、犬の特徴 (鼻、足、尻尾など)、ウサギの特徴 (耳、足など) を認識する可能性があります。

これらの特徴は **「サイト ワード」** とみなされ、テキスト分析を行うときにテキスト内のすべての単語を単語の袋に入れるのと同じように、それらをすべて「単語の袋」に入れます。したがって、写真内のこれらの動物の特定の位置や姿勢の変化に関係なく、これらの特徴が写真内にある限り、言葉の袋の中で対応する「サイトワード」を見つけることができます。

次に、画像に対して回転、ズームイン、ズームアウト、トリミングなどのランダムな摂動を実行します。次に、この摂動画像から元の画像の視覚的な単語のバッグを予測しようとしますこれには、ニューラル ネットワーク モデルが強力な学習能力と推論能力を備え、乱れた画像から元の画像に属するビジュアル ワードを正確に識別できる必要があります。

この方法の大きな利点の 1 つは、さまざまな角度やスケールから画像を理解して説明できることです。これは、オブジェクト認識やシーンの理解など、多くのコンピューター ビジョン タスクにとって非常に重要ですしかし、この方法では画像内の微細な特徴やビジュアルワード間の相対的な位置情報を捉えることができないなどの限界もあります。したがって、ビジュアル ワードのバッグは強力なツールですが、実際のアプリケーションでは通常、畳み込みニューラル ネットワーク (略して CNN) などの他の手法を組み合わせて、モデルのパフォーマンスをさらに向上させます。

このアプローチには次のような利点があります。

  1. 生成された表現は、必要な変換に対して不変です。つまり、画像がどのように回転またはトリミングされても、同じ「単語」が含まれている限り、同じ「単語のバッグ」が生成されます。
  2. 文脈推論スキルを学ぶ: 摂動された画像は元の画像の「単語の袋」を予測する必要があるため、ネットワークは画像の一部を画像の他の部分から推論する方法を学習する必要があります。
  3. 欠落した画像領域内の単語の推測: 画像の一部が欠落しているか覆われている場合、「単語の袋」を使用して、この部分にどの「単語」が含まれているかを予測することもできます。

ただし、このアプローチにはいくつかの欠点もあります。

  1. 別のネットワークから開始する必要があります: このネットワークは最初から学習することができないため、事前にトレーニングされた別のネットワークから開始する必要があります。
  2. きめの細かい特徴を学習する能力が限られている: バッグオブワード手法では画像内の一般的な特徴を識別できますが、色やテクスチャなどのよりきめの細かい特徴については学習能力が限られている可能性があります。

さらに、「Bag of Visual Words」は効果的な特徴抽出方法ですが、特徴間の相対位置情報など、多くのアプリケーションで非常に重要な空間情報が失われます。そこで、「空間ワードバッグ」と呼ばれる改良された方法があります。つまり、ワードバッグの特徴を保持しながら、空間情報の一部も保持します。

視聴覚対応

「視聴覚対応」という自己教師あり学習課題は、音声と画像を組み合わせて行われます。目的は、画像と音声に基づいて一致するかどうかを判断することです。

簡単な例で説明してみましょう。サッカーボールが蹴られるビデオ クリップがあり、キックの音が聞こえるとします。この例では、サッカーが蹴られているときに視覚的に見えるものが、聴覚的に聞こえるものと一致するため、画像と音が一致します。

しかし、このビデオの音声を猫の鳴き声に置き換えると、映像と音声は一致しなくなります。なぜなら、見ているのはサッカーボールが蹴られているのに、聞こえるのは猫猫の鳴き声だからです。

「聴覚と視覚の対応」のタスクにおいて、ニューラル ネットワークの目的は、この対応を学習することです。トレーニング中に、ネットワークは入力された画像と音声が一致するかどうかを判断する必要があります。一致するものがあればネットワークは「yes」を出力し、一致しない場合は「no」を出力する必要があります。【外部リンク画像転送…(img-pjRJW98E-1686298179749)】

このようにして、ネットワークは視覚信号と聴覚信号から有用な特徴を抽出する方法を学習し、2 つの信号間の相関関係を理解できます。

このアプローチの利点は、追加のデータ拡張方法を必要とせずに、両方のモダリティの表現を同時に取得できることです。

この方法の欠点は、すべての画像に対応する音声があるわけではないこと、つまり、ネットワークが学習できない「盲点」がいくつか存在することです。さらに、このメソッドのインスタンス ベースの性質により、同じカテゴリまたはインスタンスのビデオがネガティブ サンプルとなり、結果に影響を与える可能性があります。

ナレーションを活用する

おすすめ

転載: blog.csdn.net/weixin_57345774/article/details/131118438