口実不変表現の自己教師あり学習
1.要約
異なる口実タスクにおける画像変換に応じて変化しない意味表現の自己教師あり学習法(Pretext Invariant Representation Learning-PIRL)が提案されています。この方法で学習された画像表現は、不変性の特性を持ち、意味的品質が高く、多くの教師あり学習事前トレーニングタスクのパフォーマンスを超えています。
2.論文メソッド
他の論文のアイデアは、元の画像が変換された後の画像変換のいくつかの特性を予測することです。したがって、学習された特徴は、この変換で変化する低レベルの特徴であり、一部の意味認識タスクには適していません。
この記事のPIRL:最初に表現ネットワークNを定義します;画像Aが処理された後(上の図に示されているパズルの再配置)、画像AはNによってA_fとして表され、画像aはNによって表され、a_fとして表されます;トレーニング後A_fとx_f(x≠a)はまったく異なりますが、A_fとa_fをできるだけ近づけます。
エクスペリエンスの損失を最小限に抑えることにより、ネットワークパラメーターをトレーニングします。どこDDDは画像データセットを表し、p(T)は画像変換の分布を表します。ItI ^ t私tはt、θ\ thetaを変更した後のイメージを表しますθはネットワークパラメーターを表し、VI V_IV私ネットワークを通じて学習された画像の特性を表します。
- 損失関数
は、対照的な損失関数Lを定義します。目標は、画像Iの表現を変換後のI t I ^ tにできるだけ一致させることです私tも同様であり、他の画像データの表現は可能な限り異なります。
s(⋅、⋅)s(・、・)s (⋅、⋅)コサイン類似度の計算を表し、sを計算する前に、機能はさまざまな「ヘッド」計算、g(・)およびf(・)にかけられます。
バッチサイズを増やすことなく負の例の数を増やすために、メモリバンクが使用されます道。各画像の特徴表現IはMに含まれ、前のエポックによって計算されたf(VI)f(V_I)は、指数移動平均法によって更新されます。f (V私)。
最終的な損失関数
では、2番目の項はf(VI)f(V_I)になりますf (V私)可能な限り多く、メモリはm I m_Iを特徴付けますメートル私m I 'm_I'と同様メートル私'可能な限り。 - 実装の詳細
f(VI)f(V_I)f (V私):画像はres5ネットワーク(ResNet-50の最初の5層)を通過し、平均プーリングと線形マッピングを実行して128次元のベクトル表現を取得します;
g(V(I t))g(V_(I ^ t ))g (V(私t)):画像Iは3つのパズルに分割され、パズルの各ピースはres5ネットワークによって処理されてから平均プーリングが実行され、次に線形マッピングがそれぞれ実行されて合計128次元の3つのベクトルが取得され、これら3つのベクトルはランダムにソートされますマージしてから線形マッピングを実行して、128次元のベクトル表現を取得します。
3.実験結果
ターゲット検出タスクは他の自己管理学習方法を上回っており、元のジグソーの口実タスクの事前トレーニング結果は5ポイント改善されています。線形モデルやさまざまなデータセットを使用したIMage分類などの他のタスクでは、他の自己管理型事前トレーニング方法よりも多くのことを達成しています。
元の画像特性と変換された画像特性のl2距離を比較することにより、PIRLによって学習された特性が不変であることが証明されます。