背景:
Zeroshot 学習、ゼロ学習。
モデルのためにトレーニングセットに存在したことがないクラス:自動的に対応するマッピングを作成することができX-→Y-を。
低/少数-SHOT学習、ワンショット学習、小型/学習の時間。
トレーニングセットは、各カテゴリには、 サンプルを持っているが、ちょうど 小さなサンプル (あるいは単に1)。
要約するには:
これは、提案している低ショット転送検出器(LSTD) 、豊富なソース領域の使用(ソースドメイン)効率的なターゲットドメイン知識構築するために(ターゲットドメイン)検出器(ほとんどのトレーニング例を必要とします)。
主な貢献:
- 我々は低ショットで検出することは困難tranferを軽減するために、深い柔軟なアーキテクチャのLSTDを設計しました。同時に、このアーキテクチャは、SSDや高速化RCNNそれぞれの長所を兼ね備えています。
- 第二に、我々は微調整を強化するために、ソースとターゲットのドメインからのターゲット情報を使用して、それぞれ、転送サポート技術情報(転送インデックスTK)と背景恐慌(背景抑制BD)正則化法を含め、新たな転移学習の枠組みを提案します。
前のソリューション:
- 弱/ SEMI-監修追加のラベル画像アノテーションの。容易に導入。短所:原因トレーニングセットの監督の欠如には、検出器の効果は、多くの場合、制限されています。弱い監督:なしラベルボックス、半教師:ラベル、フレーム部。
- 移行モデルの深さの研究。短所:データセットが小さい場合、ターゲットが検出されると(1)、検出を標的とするために、一般的な移行戦略を使用して(例えば、深さ深さ検出モデルを初期化するために、単純な予備訓練した分類モデルを使用して)適用されません。小さなデータセットにトリミングする場合の検出と分類の間の違いを見分けることが困難な場合が多いです。(2)移行研究において、深度検出モデルは分類モデルの深さよりもオーバーフィッティングしやすいです。(3)簡単な微調整は、多くの場合、転送の度を減らすことができます(多くの場合、重要な目的の知識ソースとターゲットドメインは持って無視します)。
TKとBD主な役割:
TKは:各ターゲットドメインの場合は、提案元ドメインターゲットラベルの知識を移行するには、ターゲットドメイン一般化することが可能となり、低-SHOTを学習します。
BD:ターゲットドメインの特徴マップ画像上での参加バウンディングボックスの知識、追加的な監督を行うことでモデル作りの転送干渉がバックグラウンドを抑制することができ、目標に焦点を当てます。
ネットワークの基本的な構造:
図1
まず、我々は、SSDの形でバウンディングボックス回帰を設計します。
使用SSDのデザインボックス回帰をバウンディング。各層はデフォルト候補畳み込みブロック、各レイヤ有する平滑L1回帰フレームを訓練するが。
- トレーニングデータ:大規模ソースドメイン
- トレーニングの目的:再初期化を避けるために、スケール(小さなサンプル不足している情報)の多様性を研究するためにBBOXの減少、リターンをターゲットドメインの際に微調整の負担を
第二に、我々はより速くRCNNの方法でオブジェクトの分類を設計します。
高速化RCNNデザインオブジェクト分類。これは、元のある高速RCNNリターンボックスが交換SSDの回帰マルチスケールフレームを、元のRoIの層、前記層のSSDの代わりに畳み込み特性の中間の。
次のように実装プロセスは、次のとおりです。
- SSDの部分は、オブジェクトの画分ソートし、選択された領域提案 RPNの結果としてスクリーニングを
- 使用ROIプーリング層である中間レベルの各々に対する畳み込み層提案固定サイズのコンボリューション特性生成キューブ
- オリジナルを使用せずに高速rcnn完全接続層が、ROIプーリング層のための2つの畳み込み層用いてK + 1分類。
利点:
- パラメータが少ない場合は、オーバーフィッティングを減らします。
- そして、直接K + 1トレーニング移行研究の難しさを軽減カテゴリ分類、細かい分類に粗い、と比べて。
- バックグラウンドと比較され、ソースおよびターゲット共有のオブジェクトと同じ特性(例えば、鋭いエッジ、均一な組織)の一部。
LSTDのための学習正則転送:
図2
- 大規模なソース・データ・セットでソースドメインLSTDを訓練します。
- pretrainedソースドメインLSTDを使用して、ターゲットドメインLSTDを初期化します。
- 提案された低ショット検出正則とターゲットドメインLSTDを微調整するために小規模な対象のデータを使用しています。
具体的には、第一の大量のソース・データ・トレーニング中のモデル図がpretainedソースドメインLSTDを得、次いで、モデル初期化対象領域のLSTD;最後に、物品は、微調整のための正規化方法が提案されているターゲットドメインに初期化後、ターゲットドメインLSTD。
総損失関数の微調整プロセスは次のよう:
前記、L_mainリターンロスは、スケールおよび損失ターゲット分類(以下すなわち2つのコンボリューション)をトリミングLSTDの複数の層を指します。(低ショットが意図ので、宛先ドメインに関連付けられているが、異なるソースドメインは、以前に検出されたターゲット・データ・カテゴリの数が少ないから見ません)。ターゲットドメイン、ターゲットドメインに訓練初期化した後、微調整に使用される元ドメインで再初期化する必要があります。
さらに新しい定期的なアイテムを追加し、ターゲットドメインにおける低ショット検出を強化するために、次のようL_regは、フォームは次のとおりです。
これは、L_BD、それぞれL_TK背景抑制と知識の移行正則。
背景-うつ病(BD)正則:
そのため、背景情報の複雑さの局在のパフォーマンスに影響しますので、ターゲットドメイン内のオブジェクト知識は、BD正則を設計して。具体的には、中間層は、次いで用グランド真実バウンディングボックスが背景に対応する唯一の機能領域、すなわちF_BDを保持し、マッチ箱を取り除くために、マッチ箱を取る第一の特徴キュービック(候補ボックス)から生成されます。最後に、正の罰L2の使用はF_BD正則を活性化しました。これにより、背景情報を抑え、のみ対象データに関心のある情報さらなる目的を標的とします。
BDの役割:
トランスファー・知識(TK)正則:
ソースドメインとターゲットドメインの異なるカテゴリに、そのターゲットドメインでの微調整をします。データのみがターゲットドメインを微調整する場合でも、それはソースドメインの知識をフルに活用することができません。だから、TK正則ターゲットネットワークを予測するためのソースドメイン知識の源としてのターゲットラベル、それを正則を提案しました。ここでの前提は、ソースとターゲットオブジェクト間の一定の相関があることが想定されます。次のように具体的な手順は次のとおりです。
- ソースドメイン知識:トレーニング画像はソースドメインLSTDと内部標的領域LSTDに供給し、その後、標的領域ROI細胞層は、ソースドメインLSTDは、最終的にソースドメイン知識分類からターゲットを生成する提案に適用されますベクトル:
A_S各オブジェクトの提案の事前ソフトマックス活性化ベクターであり、τはパラメータであり、軟化ラベルをより豊かなラベル関係情報を生成することができます。
-
ソースドメインのカテゴリーの対象-Domian予測:ターゲットドメインLSTDは、マルチタスク学習の枠組みに微調整です:ソース・オブジェクトは、各ターゲットの提案のために、ターゲット・ドメインLSTDの終わりに分類器を柔らかく追加することで、分類これは、ソースオブジェクトカテゴリの軟化予測を生成します。
a_preであることを特徴と各提案の事前ソフトマックス活性化。
-
TK正則:計算ソースドメインLSTDとの知識p_tsターゲットドメインLSTDの軟化予測p_pre クロスエントロピー損失:
全体のトレーニングプロセスモデル:
参考:
1. http://blog.leanote.com/post/lilac_yue/%5BAAAI2018%5DLSTD
2. https://blog.csdn.net/u011630472/article/details/89216035