[紙の読書]アクティブラーニングの学習損失

紙のアドレス:https
://arxiv.org/abs/1905.03677公開:CVPR'19

概要

ディープニューラルネットワークのパフォーマンスは、より多くのラベル付けされたデータで向上します。問題は、注釈の予算が限られていることです。この問題に対処する1つの方法は、アクティブラーニングです。このモデルでは、モデルが不確実であると見なすデータにラベルを付ける必要があります。最近、アクティブラーニングをディープネットワークに適用するためのさまざまなアプローチが提案されていますが、それらのほとんどは、ターゲットタスク用に設計されているか、大規模ネットワークでは計算効率が悪いものです。この論文では、シンプルでタスクにとらわれず、深いネットワークで効果的に機能する新しいアクティブラーニング手法を提案します。「損失予測モジュール」という名前の小さなパラメトリックモジュールをターゲットネットワークに接続し、ラベルのない入力のターゲット損失を予測するためにそれを学習します。このモジュールは、誤った予測を生成する可能性のあるサンプルについてターゲットモデルに警告できます。ネットワークはターゲットタスクに関係なく単一の損失から学習するため、このアプローチはタスクに依存しません。画像分類、オブジェクト検出、人間の姿勢推定を通じて、最近のネットワークアーキテクチャでアプローチを厳密に検証します。結果は、私たちの方法がこれらのタスクで以前の方法を一貫して上回っていることを示しています。

I.モチベーション

この記事のアイデアは非常に興味深いものです。アクティブラーニングでは、貴重なサンプルが選択されます。理想的には、最も簡単な(そして最も効果的な)方法は、予測結果を真の値と比較することです。モデルがサンプルを誤って予測した場合、サンプルは当然価値があります。問題は、のラベル付けがないことです。

この記事のアプローチは、予測結果と実際の結果の違いだけが必要なので、タイトルで言及されている「学習損失」であるギャップ自体(損失)を直接予測するのが良いということです
ここに画像の説明を挿入
。よりマクロな視点以前は、サンプルの情報量を判断するために、さまざまなヒューリスティックまたは非ヒューリスティックアルゴリズムを設計する必要がありましたが、今では、小さなディープネットワークモジュールだけを直接設計できます。

次に、損失予測モジュールの設計を紹介します。

II。損失予測モジュール

ここに画像の説明を挿入
「非常に単純」という純粋に構造的な観点から、一般的な考え方は、モデルの中間層の特徴を抽出してさらに処理することです。具体的には、中間特徴マップでは、グローバル平均プーリング(GAP)を使用してコア特徴を抽出し、FCで学習します。最後に、処理された中間特徴を連結し、FCで最終予測スコアを取得します。

本当の難しさは、この損失予測モジュールを監視するために何を使用するかです。

III。学習損失

このセクションでは、前のセクションで説明した監視の問題について説明します。
ここに画像の説明を挿入
最初の問題は、「監視に何を使用するか」です。実際、これも非常に直感的です。トレーニングすると実際の損失が発生するため、この損失が真の値になります。最後の問題を解決するために、「損失損失関数」の設計方法を説明します。

最も簡単な方法は、MSEに移動することです。ただし、トレーニングが進むにつれて、損失自体の真の値が急激に低下し、勾配が激しく変動します。このとき、モデルが学習するのは実際には損失の変動であるため、直接使用することはできません。具体的には、この論文の損失は次のとおりです。L損失(lp ^、lp)=max⁡(0、− A(li、lj)⋅(l ^ i − l ^​​ j)+ξ)st A( li、lj)= {+ 1、li> lj − 1の場合、それ以外の場合は\ begin {aligned} L _ {\ mathrm {loss}} \ left(\ hat {l ^ {p}}、l ^ {p} \ right )= \ max \ left(0、-\ mathbb {A} \ left(l_ {i}、l_ {j} \ right)\ cdot \ left(\ hat {l} _ {i}-\ hat {l} _ {j} \ right)+ \ xi \ right)\\ \ text {st} \ quad \ mathbb {A} \ left(l_ {i}、l_ {j} \ right)= \ begin {cases} +1 、&​​\ text {if} l_ {i}> l_ {j} \\ -1、&\text{それ以外の場合}\end {cases} \ end {aligned}Ll o s s((lp^lp=最大 0 al私はlj)。((l^私はl^j)。+ξ  st Al私はlj)。={{ + 1 1lの 場合 私は>>ljそれ以外の場合 考え方は少し複雑で、興味のある読者は元のテキストの対応する部分を読んで理解することができます。

おすすめ

転載: blog.csdn.net/qq_40714949/article/details/120976929#comments_20988940