[アルゴリズムや数式は、非常に単純であっても少しナイーブ、良い記事を書きます]
大容量の小さなネットワークを作るために、我々は通常、蒸留を使用しています。この記事では、プレゼントの新しい方法:お互い(深い相互学習、DML)からの学習の深さを。蒸留と一緒に学ぶことを学ぶ学生が複数の存在下で互いに異なる、および各学生の間では、お互いから学ぶこと。また、驚くべき結果を発見した:私たちは教師ネットワークpiror強力を必要としませんが、一緒にネットワークを学習する学生の単純なグループを必要とし、パフォーマンスが蒸留学習を超越することができます。
1.はじめ動機や方法の詳細な
、合理化ネットワーク設計、モデルの圧縮モデル、二元的(二値化)を剪定だけでなく、蒸留のための最も興味深いモデル:モデルの合理化の多くの手段があります。
蒸留は動機付けのモデルです:似たスキルの大規模なネットワークを持つ小規模ネットワークが、それは大きなネットワークトレーニングを単純として良いようではなかったです。言い換えれば、トレーニングは、ネットワークの小さなサイズの問題ではありませんが、最適化されています。
したがって、このモデルは、蒸留モデルの教師に設定します。小さい学生モデルの試みではなく、伝統的な監督の目標を通じて学習よりも、教師の特性や表現の分類確率モデルを模倣します。教師モデルは、事前に訓練され、したがって、蒸留学習を学ぶための一つの方法です。
この記事の異なるアプローチ。学生のネットワークのシリーズを設定するこのホワイトペーパーでは、一緒に学びます。2つの損失関数訓練中の各学生のネットワーク:1は、従来の教師あり学習の損失であり、他の損失(擬態損失)、生徒の事前確率として他の学生の分類確率の模倣です。
...、そして後部他の学生のクラス確率で各学生のクラスを揃え擬態損失。
;(2)もはや強い教師を必要とする;(3)お互いに3つの大きなネットワークを作るために(1)各学生のネットワークのパフォーマンス、優れた個々よりであることを学習するだけでなく、より良い学習の蒸留より:三つの側面がある意味優れた単一の大規模なネットワークよりも学習、学習。それは我々が唯一の精度、便利になることができ、互いから学ぶの深さを考慮すると、スケールモデルを考慮していない場合でも、です。
それを説明するための何の理論はありませんか?行かないと思います。すなわち:最終的にはどちら増加のおかげ?まず第一に、お互いから学び、蒸留を学び、学生がより合理的な、一般的な局所最適解に陥るように、ネットワークに学生を導くために、そのネットワークを追加情報を提供しています。[ドロップアウトのようなビットではなく、ネットワーク構造の堅牢な変換が、最適化戦略の変換の堅牢性]
重い歩行者認識と画像分類上の著者は、蒸留よりも良い結果を学習し、実験を行いました。少数FOUNDもあります。
このような方法は、ネットワーク構造、またはネットワークの複数の有効な大きさの組み合わせの様々な効果があります。
ネットワークの数が協力を増加させるように、性能も向上します。
これは、両方のためのラベルデータの効果的な模造、ラベルも有効なデータの損失のため、半教師あり学習のために有用です。
2.関連研究
蒸留学習と比較すると、直接捨て教師、学生のネットワークの概念とは、一般的なネットワークの束は、お互いから学ぶことができます。
協調学習と比較すると、このターゲットは、各ネットワークでも同じです。異なるタスクの解決を目的とした既存の協調学習のコラボレーション。
3.メソッド
3.1製剤
示されているように、非常に明確に見えます。
あると仮定\(M \)カテゴリ\(N \)サンプル(\ \ {X_I \} _ {私は= 1} ^ Nは\) 、ラベルに対応する\(\ {Y_I \} _ {iは= 1} N ^ \) 。
最終教師あり学習損失\(L_Cは\)予測確率と実際のラベル間のKLダイバージェンスです。ソフトマックスによって正規化されたネットワークの確率を予測します。
\ [P ^ M(X_I)= \ FRAC {\ EXP(Z ^ M)} {\ sum_ {M = 1} ^ M \ EXP(Z ^ M)} \]
\ [L_C = - \ sum_ {I = 1} ^ N \ sum_ {M = 1} ^ MI(Y_I、M)\(P ^ M(X_I))\]ログ
\を[I \は(M \右、Y_ {I}を)左= \ {\左\ {アレイ} {LL}始める右\ {1}と{Y_ {I} = M} \\ {0}&{Y_ {I} \ NEQ M} \端{アレイを}。\]
さらに、我々は、ネットワークを模倣ネットワーク損失2を参照して定義され、ネットワークの別のランダムな初期化を導入:
\ [左KL D_ {} \(\ boldsymbol {2} {P} _ \ | \ boldsymbol {P} _ {1} \右)= \ sum_ {I = 1} ^ {N} \ sum_ {M = 1} ^ {M} P_ {2} ^ {M} \左(\ boldsymbol {X})_ {I} \右\ \ FRACログ{P_を{2} ^ {M} \左(\ boldsymbol {X} _ {I} \右)} {P_ {1} ^ {M} \(左\ boldsymbol {X} _ {I} \ 右)} \]
説明:同じ確率の両方場合、損失はゼロであるが、長い二つの異なる傾向として、損失が陽性であるとしてそれ以外の場合は、(0になる傾向がある、1になる傾向があります)。
もちろん、我々はまた、対称KL損失を使用することができ、すなわち、\(\ FRAC {1} { 2} \左(D_ {KL} \左(\ boldsymbol {P} _ {1} \ | \ boldsymbol {P} _ {2 } \右)KL + D_ {} \左(\ boldsymbol {2} {P} _ \ | \ boldsymbol {P}} _ {1 \右)\右)\)。それは、無差の影響することが分かりました。ブロガー不思議式[7]間違っ
最終損失は直接教師あり学習合計上記の損失と損失を模倣することです。
3.2
各ネットワークは別々のGPUで計算することができます。
以上のネットワークを追加する場合は、損失が平均模倣します。
次いで、(教師として統一されている)他のネットワークが平均ように、すべての学生の確率、および平均KLダイバージェンス確率と学生分配ネットワークの確率を計算する:別の最適化方法。
\ [L _ {\ Theta_ { K}} = L_ {C_ {K}} + D_ {KL} \左(\ boldsymbol {P} _ {平均} \ | \ boldsymbol {P} _ {K} \右) \クワッド\ boldsymbol {P} _
{平均} = \ FRAC {1} {K-1} \ sum_ {L = 1、L \ NEQ K} ^ {K} \ boldsymbol {P} _ {1} \] 実験私はこれを行うことは良くないことがわかりました。考えられる理由は以下のとおりです。平均操作は、[ライン上]超越理解乱数の教師のエントロピーを低減します。
3.3の弱教師あり学習
実装は簡単です:ラベルデータがある場合は、その後、教師付き学習の損失に基づいて最適化され、それが標識されていないデータであれば、その後、模倣損失に基づいて最適化すること。
4.実験
4.1基礎実験
表に示すように、著者は、ネットワーク構造の多くを試してみました。インタラクティブ学習は、精度が向上しているとき(DML-INDは正です)。前記組成物はさらに、一対の種々のネットワークを含みます。著者はまた、歩行者に重いタスクを特定しようとした、精度も改善されました。
トレーニング中、DMLはまた、より速く、より良い収束に貢献します。
著者は、二つの反復戦略を試みた:一つは、反復のシーケンスである第一のネットワークの反復した後、2回目の反復を終え、第二は、同じ時間反復であり、平行な戦略です。著者は、より良い第二を見つけました。平行及び第二、より高い効率のため。
著者らはまた、学習の蒸留を比較して、効果がはるかにDMLが悪いです。
著者らはまた、ネットワークの最終結果に学生数の影響を調べました。全体的な傾向を成長させ、かつ分散も小さくなっています。
4.2デプステスト
なぜDML効果的?著者らはまた、いくつかの実験を行いました。
[4,10]それは:通常、より良いネットワークのスリット(狭い隙間)汎化能力に陥るよりも、ネットワークのガリ(広い谷)が低下します。なぜ?場合外乱入力ので、ガリは、ネットワークに大きな変化はありませんが、後者。DMLは、スリットのうち、ネットワークを支援するファシリテーターの役割として機能します。
ネットワーク内の著者重い重みはガウス雑音を加えとして、及び[4、10]:著者らは、これを証明するが、実験を実施することができません。結果として、元の激しいトレーニング誤差が大きくなるのネットワーク、およびトレーニングネットワークトレーニングエラーDMLわずかな増加。
さらに、DMLは、教師のネットワークを動作させるの平均です。私たちは、このイコライゼーションを見て良いではありません。著者は、DMLの添加が予測ネットワークはそれほど確かではない可能ことがわかりました。これは、エントロピー正則化法[4,17]に類似して、ネットワークは、より広い極小値を見つけることを助けることができます。しかし、[4]、よりよい効果DMLと比較。
それは、またはDMLせずに、異なる初期の学校の特性のうちネットワークが異なっている、ことが判明しました。このように、ランダムなサービスの違いは、堅牢性を提供します。私達は特性を強制する場合はさらに、その後、最終的な結果は、落下の代わりに上昇していない、類似していました。著者は、機能上のL2損失、より悪い効果の結果に参加しようとします。