[半教師あり学習] MixMatch、UDA、ReMixMatch、FixMatch

半教師あり学習(SSL)SOTAは、MixMatchから始めて、同時期にUDAとReMixMatch、そして2020年にFixMatchまで、Googleによって何度も更新されました。

深い半教師あり学習に関するこれらの4つの記事は、整合性の正則化とエントロピー最小化の2つの側面から始まります。

  • 整合性の正則化:整合性、入力画像または中間層へのノイズの注入、モデルの出力は可能な限り一定または近似に保つ必要があります。
  • エントロピーの最小化:エントロピーの最小化:ラベルのないデータに対するモデルのエントロピーは、可能な限り最小化する必要があります。疑似ラベルも、エントロピー最小化を暗黙的に使用します。

整合性の正則化

ラベルのないインスタンスごとに、整合性の正則化では、ランダムに注入された2つのノイズの出力を近似する必要があります。

整合性の正則化のために、ノイズを注入する方法と近似を計算する方法は、各方法の違いです。ノイズの注入は、モデル自体(ドロップアウトなど)またはノイズの追加(ガウスノイズなど)、またはデータ拡張を介して行うことができます。整合性を計算する方法では、L2、KL発散、クロスエントロピーを使用できます。

エントロピーの最小化

MixMatch、UDA、およびReMixMatchは、温度シャープニングを介して間接的にエントロピー最小化を使用しますが、FixMatchは、疑似ラベルを介して間接的にエントロピー最小化を使用します。または、ラベル付けされていないデータの人工ラベルを取得し、教師あり学習手法(クロスエントロピー損失など)に従ってトレーニングした場合に限り、エントロピー最小化が使用されると考えることもできます。エントロピーの最小化は、ラベル付けされていないデータ部分の損失と整合性の正則化を計算することで実現できます。

温度鮮鋭化と疑似ラベルの両方で、ラベルなしデータの人工的なラベルが取得されます。前者の温度= 0の場合、2つは等しくなります。温度ハイパーパラメータが1つ少ないため、疑似ラベルは温度シャープニングよりも単純です。

エントロピー最小化を使用しない場合、実際には温度のシャープ化と疑似ラベルは不要であり、ラベルの付いていないノイズのインスタンスをランダムに2回注入して出力を近似するだけで、整合性の正規化が保証されます。

言い換えると、ラベルのないデータに人工的なラベルを付けると、損失によってエントロピーを最小化し、整合性を正則化できます。

整合性の正則化とエントロピーの最小化

一般的に、半教師あり学習のラベルなしデータはすべてのトレーニングデータセットを使用します。つまり、ラベル付きサンプルはラベルなしサンプルとしても使用されます。

半教師あり学習では、ラベル付きデータのラベルはすべて与えられますが、ラベルなしデータのラベルは不明です。したがって、ラベル付けされていないデータの人工ラベルを取得する方法、MixMatch、UDA、ReMixMatch、およびFixMatchの実践は、多少異なります。

  • MixMatch:弱い増大(シフトや反転など)の平均K予測予測、および温度シャープニング。
  • UDA:弱い増強の予測と、その後の温度鋭化。
  • ReMixMatch:弱い増大の予測、次に分布整列、そして最後に温度シャープニング。
  • FixMatch:弱い拡張の予測で、ワンホットはハードラベルを取得します。

人工タグを使用すると、教師あり学習の方法でトレーニングできます。この考え方では、エントロピー最小化を使用します。ラベル付けされていないデータの一貫性の正則化の観点から、ラベル付けされていないデータの予測を人工的なラベルと一致させるために、さまざまなノイズを注入する必要があります。

MixMatch、UDA、ReMixMatch、FixMatchはすべて、データ拡張を使用して入力サンプルを変更し、ノイズを注入します。違いは、特定の方法とデータ拡張の強さです。

  • MixMatch:弱い拡張は予測を取得します。これは、ラベルなしの損失がL2を使用することを除いて、通常の教師ありトレーニングと同じです。
  • UDA:強力な拡張(RandAugment)は予測を取得します。
  • ReMixMatch:複数の強力な拡張(CTAugment)は予測を取得し、ラベルなしの損失の計算に参加します。つまり、ラベルなしのインスタンスとステップは複数の拡張後に計算されます。
  • FixMatch:強力な拡張(RandAugmentまたはCTAugment)は予測を取得します。

UDAとReMixMatchから始まって、強力な拡張により、半教師付きトレーニングが導入されました。UDAは、著者が提案したRandAugmentの強力な拡張方法を使用し、ReMixMatchはCTAugmentを提案します。FixMatchは、UDAおよびReMixMatchで使用されている強力な拡張機能を使用しました。

ラベルのないデータ部分が失われた場合:

  • MixMatch:L2損失;
  • UDA:KL divergency;
  • ReMixMatch:クロスエントロピー(自己監視された回転損失と、ミックスアップなしのプレミックスアップラベルなし損失を含む);
  • FixMatch:しきい値とのクロスエントロピー。

FixMatch:一貫性と信頼性を備えたSSLの簡素化

FixMatchは、MixMatch、UDA、ReMixMatchを簡素化し、より良い結果を取得します。

  • まず、温度のシャープ化は疑似ラベルに置き換えられますが、これは簡略化です。
  • 2番目に、ラベル付けされていない損失の計算時に予測の信頼度がしきい値を超えるラベル付けされていないインスタンスのラベル付けされていない損失を計算するしきい値をFixMatchが設定するため、ラベル付けされていない損失の重みを修正できます。これは2番目の単純化です。

参考文献

[1] Berthelot、D.、Carlini、N.、Goodfellow、I.、Papernot、N.、Oliver、A.、Raffel、C。(2019)。MixMatch:半教師あり学習へのホリスティックなアプローチarXiv https://arxiv.org/abs/1905.02249
[2] Berthelot、D.、Carlini、N.、Cubuk、E.、Kurakin、A.、Sohn、K.、 Zhang、H.、Raffel、C.(2019)ReMixMatch:分布の調整と拡張による半教師付き学習arXiv https://arxiv.org/abs/1911.09785
[3] Xie、Q.、Dai、Z.、Hovy、E.、Luong、M.、Le、Q 。(2019)。整合性トレーニングarXivのための教師なしデータ拡張https://arxiv.org/abs/1904.12848
[4]ソン、K、ベルトロ、D、リー、C、チャン、Z、カルリーニ、N、キューブク、E、クラキン、A、チャン、H、ラッフェル、C(2020) 。FixMatch:一貫性と信頼性を備えた半教師あり学習の簡素化arXiv https://arxiv.org/abs/2001.07685

おすすめ

転載: www.cnblogs.com/wuliytTaotao/p/12727922.html