半教師あり学習 機械学習 第 13 章

半教師あり学習 @機械学習


转载请标明出处,本篇文章允许转载,禁止抄袭

半教師あり学習

背景: ラベル付きサンプルがラベルなしサンプルよりはるかに少ない場合、教師あり学習はモデルの構築にラベル付きサンプルのみを使用でき、ラベルなしサンプルの情報は無駄になり、ラベル付きサンプルは小さく、トレーニング サンプルは不十分であり、学習モデルの汎化効果は理想的ではありません。
質問: モデルを構築するときにラベルのないサンプルを使用できますか?

序文

概念が含まれる

1. ラベル付きサンプル: 各 x i には対応するy iがあります; D l = {(x 1 , y 1 ), (x 2 , y 2 ), ..., (x l , y l
)} 2. ラベルなしサンプル: x iのみ、実数値 y iは対応しません; D u = {x l +1, x l +2, ..., x l +u} 3.
教師あり学習: マーク付き学習であり、y _ は、実際の値 y (またはラベル label) と比較して、モデル f hat (予測値) を通じて取得できます。
4. 一般化能力: 学習されたモデルを新しいサンプルに適用する能力。詳細は紹介文をご覧ください

1.コンセプト

  • これは、学習者がラベルのないサンプルを自動的に使用して、外部インタラクションに依存せずに学習パフォーマンスを向上できるようにする半教師あり学習です. 注: 外部インタラクションに依存する: ① 最初に D l を使用してモデルをトレーニングする、② このモデルを使用して D u でサンプルをテストする、③ 外部データ/モデルに問い合わせることによってこのサンプルのラベルを学習する、④ この新しく取得したラベル付きサンプルを D l に追加する、⑤
    新しいモデルトレーニングする②③④⑤の工程を繰り返します。モデルのパフォーマンス向上に大きく役立つデータが毎回選択される場合、外部データへの依存度が低い比較的浅いモデルを構築できるため、ラベル付けのコストが大幅に削減されます。このような学び方を「アクティブラーニング」といいます。目標は、使用する「クエリ」 (依存関係) をできるだけ少なくして、最高のパフォーマンスを実現することです。
    差別的な外部データを使用しない半教師あり学習
    外部相互作用に依存しない:図に示すように、Dl が 2 つだけ( 1 つは陽性、1 つは陰性)の場合、識別サンプルは 2 つのちょうど中間にあり、区別することが困難です。DuDl が同じデータ ソースから独立してサンプリングされる場合、データの分布に関して含まれる情報はモデルの構築に非常に役立ちます。上図の右側に示すように、マークされたサンプルも 2 つしかありませんが、マークされていないサンプルを導入することで、データの分布が確認でき、判定対象のサンプルが陽性例であると判断する自信が高まります。

(1) 仮説

ラベルのないサンプルを利用するために、ラベルのないサンプルによって明らかにされるデータ分布に関する情報をクラス ラベルにリンクするいくつかの仮定が行われます。
共通:クラスタリングの仮定と一般的な仮定は
本質的に次のとおりです: 類似したサンプルには類似した出力が得られます

(2) 分割

半教師あり学習は、純粋な半教師あり学習とトランスダクティブ学習にさらに分類されます。

純粋な半教師あり学習 直接学習
仮定する ラベルのないサンプルは予測対象のデータではありません ラベルのないサンプルは予測対象のデータです
結果 学習されたモデルが Dl にも Du にも適用できないことが望まれます 学習されたモデルが Du に適用できることが期待されます。
目的 これらのラベルのない例で最適な汎化パフォーマンスを取得します。

画像の説明を追加してください
この図は、アクティブ ラーニング、純粋な半教師あり学習、ダイレクト プッシュ ラーニングの違いを示しています

2. 生成手法

生成手法は、生成モデルに直接基づく手法です。
注: 生成モデル: 詳細については、「生成モデルと判別モデル」を参照してください。

このような方法では、ラベルの有無にかかわらず、すべてのデータが同じ基礎モデルによって「生成」されることを前提としています。
この仮定により、ラベルのないデータを潜在モデルのパラメーターを通じて学習目標と結び付けることができます (著者は、生成モデルは学習プロセス中にデータの分布を学習し、クラス間の類似性にさらに注意を払うことができると考えています)。一方、ラベルのないデータのラベルはモデルの欠落パラメーターと見なすことができ、通常は EM アルゴリズムに基づく最尤推定によって解決できます。

  • EM アルゴリズム: パラメーターの隠れた変数 (欠落パラメーター) を推定するために一般的に使用されるツール。
    • ステップ E: モデルパラメータに従って隠れた変数を見つける
    • ステップ M: 前のステップで取得した観測変数と隠れ変数に基づいてモデル パラメーターを計算します。
    • 局所的な最適解に収束するまで、ステップ E と M をループして反復します。
  • 最尤推定:推定するパラメータのすべての値の中から、データの「可能性」を最大化する値を見つけようとすること。
    このような方法の違いは主に生成モデルの仮定にあり、モデルの仮定が異なると方法も異なります。

実装

特定のデータセットの場合、サンプルは x、真のクラス ラベルは y ∈ Y、Y={1,2,…,N} はすべて可能なクラスです。
1. サンプル生成モデルを想定します。サンプル確率密度関数を取得します: p(x)
(確率密度関数のパラメーターは不明です)
2、f(x)∈Y を x に対するモデル f の予測マークを示します。事後確率を最大化し、モデルの未知のパラメータの代数式を取得するために単純化します (必要に応じて、「スイカの本」p296 を参照してください)。
その過程で、代数式の積の一部にサンプル ラベルが含まれていないことがわかります。大量のラベルなしデータを導入すると、この項目のデータがより正確になる可能性があります。このように、ラベルのないデータを利用して分類モデルのパフォーマンスを向上させることができます。
3. EM アルゴリズムを使用してモデル パラメーターの推定を解き、収束するまで反復し、モデル パラメーターを取得して、分類を実行します。

長所と短所

利点: シンプルで実装が簡単で、ラベル付きデータがほとんどない場合は他の方法よりもパフォーマンスが優れていることがよくあります。
短所: モデルの仮定は正確である必要があります。つまり、生成モデルが実際のデータ分布と一致する必要があると仮定されます。そうでない場合、ラベルのないデータの使用により汎化パフォーマンスが低下します。実際のタスクでは、事前に正確なモデルの仮定を行うことは困難です。

3. 半教師ありSVM

S3VM と呼ばれる半教師ありサポート ベクター マシンは、半教師あり学習におけるサポート ベクター マシンの推進です。

ラベルのないサンプルが考慮されない場合、超平面を分割する最大マージンを見つけようとするのは SVM です。
ラベルなしサンプルを考慮する場合、2 種類のラベル付きサンプルを分離してデータを通過できる密度が最も低い領域を見つけようとするのが S3VM です。

最も有名な半教師ありサポート ベクター マシンは TSVM です。これも、標準の SVM と同様、バイナリ分類問題の学習方法です。

アルゴリズムのアイデア:
正/負の例を各ラベルなしサンプルに割り当て、すべての可能性においてすべてのサンプル (ラベル付きサンプルと割り当てられたラベルなしサンプルを含む) 間の間隔を最大化する除算超平面を求めます。分割超平面が決定された後、各サンプルに現在割り当てられているラベルが予測結果になります。
半教師あり SVM は、膨大な計算オーバーヘッドを伴う大規模な最適化問題であるため、その研究の焦点は、効率的な最適化ソリューション戦略をどのように設計するかにあります。

4. 半教師あり学習のグラフ化

データ セットを指定すると、それをグラフにマッピングできます。データ セット内の各サンプルは、グラフ内のノードに対応します。2 つのサンプル間の類似性 (または相関性) が非常に高い場合、対応するノード間にエッジが存在し、エッジの「強度」はサンプル間の類似性 (または相関性) に比例します。マークされたサンプルに対応するノードは染色され、マークされていないサンプルは無色であると想像できます。半教師あり学習は、グラフ上で「色」が拡散または伝播するプロセスに対応します。グラフは行列に対応します。これは、行列演算に基づいて半教師あり学習アルゴリズムを推定および分析できることを意味します。(数式の導出やアルゴリズムの考え方は面倒なのでここでは説明しません。必要な読者は、周志華『機械学習』p300を参照してください。13.4 半教師あり学習)

長所と短所

長所: 概念的に明確で、関連する行列演算の分析を通じてアルゴリズムのプロパティを調査するのが簡単です。
短所:
1. サンプル数が O(m) の場合、アルゴリズムに含まれる行列のサイズは O(m²) となるため、このようなアルゴリズムで大規模データを直接処理することが困難になります。
2. 合成プロセスではトレーニング サンプル セットのみを考慮することができ、グラフ内の新しいサンプルの位置を判断することが困難です。
新しいサンプルを受信すると、元のデータセットに追加してグラフを再構築してラベルを再送信するか、追加の予測メカニズムを導入する必要があります。

5. ダイバージェンスベースのアプローチ

生成手法、半教師あり SVM、グラフ半教師あり学習などでは、単一の学習器に基づくラベルなしデータが利用されます。
発散ベースの手法では複数の学習者が使用され、ラベルのないデータを活用するには学習者間の発散が重要です。
その代表的な手法として「コトレーニング」があります。共トレーニングを理解することにより、発散ベースの手法を理解します。コトレーニングはもともと「多視点」データを対象として設計されたため、「多視点学習」の代表ともみなされています。
注:
マルチビュー データ: 多くの実際のアプリケーションでは、データ オブジェクトが同時に複数の「属性セット」を持ち、各属性セットが「ビュー」を構成します。
たとえば、花のデータセットの場合、(<x1,x2,x3>,y) があります。ここで、xi はビュー内のサンプルの例 (ビューの属性ベクトルに基づく)、y はラベルです。花のデータセットの場合、(<視覚視点の属性ベクトル、嗅覚視点の属性ベクトル、触覚視点の属性ベクトル>、花の種類) のような形式となり、具体例は以下のとおりです。

>>
x1 (ビジュアル ビュー属性のベクトル) x2 (匂いビューの属性ベクトル) x3 (触覚ビューのプロパティ ベクトル) y (タイプ)
香り 滑らかな花びら 薔薇
鮮やかな色の花 比較的軽い味わい 葉のギザギザした縁
明るい葉 花茎がとげのある
とげのある
  • 複数のビューには互換性があり、補完的です。

    • 互換性:x2ビューでは何の花か分かりませんが、x1ビューの情報から高確率でバラと特定できます。
    • 相補性: 別のケースでは、x1 からのみバラである可能性が高く、x3 からのみバラである可能性がわかっている場合、高い確率でバラであると区別できます。

協調トレーニング アルゴリズムのアイデア:

共同トレーニングでは、複数の視点の「互換性と補完性」をうまく活用します。
データには条件的に独立した 2 つの十分なビューがあると仮定します。

  • 十分: 各ビューに最適な学習者を生成するのに十分な情報が含まれていることを意味します
  • 条件付き独立性: クラス ラベルの条件に応じて 2 つのビューが独立していることを意味します。

上記の仮定の下で、ラベルなしデータを利用する簡単な方法を使用します:
1. ラベル付きサンプルに基づいて各ビューで分類器をトレーニングします
2. 各分類器に「最も信頼できる」ラベルなしサンプルを選択させて擬似ラベルを割り当て、擬似ラベル付きサンプルをトレーニング更新用の新しいラベル付きサンプルとして別の分類器に提供します。
3. 2 番目のステップは、2 つの分類子が変更されなくなるまで、または事前に設定された反復回数に達するまで、ループ内で反復されます。

共同トレーニングの利点

協調トレーニング プロセスは単純ですが、2 つのビューが十分で条件付きで独立している場合、ラベルのないサンプルを使用して、協調トレーニングを通じて弱分類器の一般化パフォーマンスを任意の高さに向上させることができることが理論的に証明されています。実際のタスクでは、ビューの条件付き独立性を満たすのは通常難しいため、パフォーマンスの向上はそれほど大きくありませんが、弱い条件下でも、共同トレーニングによって弱分類器のパフォーマンスを効果的に向上させることができることが研究によって示されています。
マルチビュー データでの共トレーニング アルゴリズムの後には、単一ビュー データでも共トレーニングを使用できるようにする多くのバリアントがあり、必要な学習器は 2 つだけです (異なるビュー、異なるアルゴリズム、異なるデータ サンプリング、異なるパラメーター設定など)。
発散ベースの手法は、適切な基本学習器を使用することによってのみ、モデルの仮定、損失関数の非凸性、およびデータ スケールの問題による影響を軽減でき、シンプルで理論的に堅牢で、広く適用可能です。
この方法を使用すると、大幅な発散を生成する必要があります。ラベル付きサンプルが少ない場合、特にデータに複数のビューがない場合、許容可能なパフォーマンスで複数の学習器を実現するのは簡単ではなく、賢明な設計が必要です。

6 つの半教師ありクラスタリング

クラスタリングは典型的な教師なし学習タスクですが、実際のクラスタリング タスクでは、多くの場合、追加の教師あり情報を取得できます。したがって、半教師ありクラスタリングを通じて監視情報を使用して、より良いクラスタリング結果を得ることができます。
注:
クラスタリング:詳細については、 「クラスタリング」を参照してください。

クラスタリングタスクによって得られる監視情報には大きく分けて 2 種類あり、
1. 監視情報は「必ず接続しなければならない」制約と「接続しない」制約であり、前者はその名の通りクラスタに属さなければならないサンプル、後者はクラスタに属してはいけないサンプルであることを意味します。代表的なアルゴリズム: 制約付き K 平均法アルゴリズム。
2. 監督情報は次のとおりです: 少数のラベル付きサンプル。代表的なアルゴリズム: 制約付きシード K 平均法アルゴリズム。

制約付き K 平均法アルゴリズムと制約付きシード K 平均法アルゴリズム

制約付き K 平均法アルゴリズムのアイデア:
このアルゴリズムは、K 平均法アルゴリズムの拡張です。データ セット D、接続必須関係セット M および非接続関係セット C が与えられた場合、クラスタリング プロセスでは、M と C の制約が満たされる必要があり、満たさない場合はエラーが報告されます。平均ベクトルが変化しなくなるまで繰り返しループします。
アルゴリズムの説明:
画像の説明を追加してください
反復プロセスの例:
画像の説明を追加してください

制約付きシード K 平均法アルゴリズムの考え方:
ラベル付きデータを「シード」として直接使用し、それらを使用して K 平均法アルゴリズムの k クラスター中心を初期化し、クラスター クラスターの反復更新プロセス中にシード サンプルのクラスター所属を変更しないことで、制約付きシード K 平均法アルゴリズムが取得されます。
アルゴリズムの説明:
画像の説明を追加してください
反復プロセスの例:
画像の説明を追加してください


転載元を明記してください、この記事は転載可、盗作禁止です

おすすめ

転載: blog.csdn.net/G_Shengn/article/details/127282107