可能な限りデータをタグ付けのコストを削減する半教師学習方法:アクティブラーニング入門

1.アクティブ・ラーニングとは何ですか?

この記事の主な目的は、能動学習の謎を解明することであり、それは伝統的な教師付き学習とは異なり表示されます。

まず、能動学習とは何でしょうか?基本的に、能動学習は、フレームワークを機械学習は、そのアルゴリズムは、再貼付されたラベルのユーザー(専門家や当局)と対話するための現実的な方法でサンプル可能で、学習プロセスは、最もよく知られているとして、実験デザイン。

目的は、マークされていない大量のデータを扱うことを学ぶためのイニシアチブを勉強しました。いくつかのあいまいな絵の特別ではなく、犬や猫の数百万人がすべての画像されたモデル画像の分類を、することができ猫や犬のための研修を行く考えてみますが、この分類モデルは、すべての画像は、すべての後に、訓練するために使用する必要はありません。訓練としての使用に適しています。それは訓練を必要とするデータの量も非常に大きいので、同様のシナリオは、分類するためのYouTubeのビデオの内容です。

コントラスト受動的に学習することにより、受動的な学習は、データセット全体をマーキングに多くの労力を要するので、良好なデータアルゴリズムをマークするための訓練の多くを取る必要があります。

 

能動学習のために、私たちは、クラウドソーシングデータの類似したセットを使用することを選択し、選択データ・セット・ラベル内のデータの一部に専門家せて、必ずしも必要ではないが、データの全データセットへのラベル付けされていることができます。連続反復選択データのための能動学習アルゴリズムは、いくつかのメトリックに基づいて、マークされていない機関にデータを送信し、その後、当局がマークし、アルゴリズムにそれを返します。

 

いくつかのケースでは、能動学習は、ランダムサンプリングよりも良好に機能します。次の図に示す線形分類の例は、ランダムサンプリングよりも効率的な能動学習について説明しました。これは、次のデータセット全体(赤と緑の円形の三角形)直線的に分離不可能ことに留意すべきです。

 

能動学習はそれがないすべてのデータが均等に貴重であることを認識することができます。トレーニングデータセットのためには、均一なアップサンプリングされ、そのような学習モデルにつながる各カテゴリ間の区分を示すものではありません。能動学習は、より迅速に訓練された分類モデルにそれが可能になって、近くの国境にそれらのトレーニングデータを選択することです。以前の研究では、画像分類タスクの多様で、能動学習は、従来のランダムサンプル[1,2,3,4]よりも効果的であることが示されています。

より多くの貴重なデータを選択しますより有益な、能動学習が簡略化されたデータセットのデータを判断するには。能動学習では、最も有益なデータは、通常、測定する方法や定量化の不確実性をうまくできるようにする必要があるデータ、ほとんどの不確実なデータセットです。

2. 能動学習の枠組みの異なる種類

能動学習はすなわち教師なし学習と教師付き学習の間の範囲、半教師あり学習と考えられています。能動学習はまた、より密接教師あり学習が、コストや時間が過ごしたが、唯一の訓練のために、すべてのデータのごく一部を使用しますので、ことを、トレーニングセットは、反復的でマークされて増やすことができます。

2.1 能動学習の枠組みのもとプール

プール・ベースの能動学習の枠組み、ラベルなしデータプールからデータを訓練し、その後、このデータのうち選択は権威でマークされたデータをプール。

2.2 能動学習フレームワークストリームに基づいて

ストリームに基づいて能動学習の枠組みでは、すべてのデータは、データストリームの形式で学習アルゴリズムに送られます。各データは、学習アルゴリズムに別々に送信され、アルゴリズムがデータにラベルを付けるかどうかをすぐに決定する必要があります。マークの権威にデータプールから選択したトレーニングデータは、次のトレーニングデータの前に、現在のラベルのトレーニングデータは、アルゴリズムにすぐに送信されなければなりません。

3. 不確実性

ほとんどの情報が豊富なデータを選択する方法については、メジャーに「不確実性」と考えることができます。プール内のサンプルに基づいて、トレーニングセットに最も貴重なデータを選択するために、能動的学習アルゴリズムを追加します。最も不確実な分類データのために、最も有益なデータ。より多くを学ぶために、データを見て、特に国境に近いデータの一部では、アクティブな学習アルゴリズム - データの小さな不確実性は、データ分類のために、より困難になることがあります。トレーニングデータが理由であるとして最も不確実なデータを選択しますより多くの境界情報。

ここでは、一般的に最も有益なデータを選択するために使用される測定方法の能動学習の不確実性に使用される4つです。

3.1 不確実性の最小マージン

 

不確実性の最小マージン(最小余白の不確実性、SMU)は最高の第二最高の確率、すなわち、最も可能性の確率マイナス可能なカテゴリの第二のカテゴリーを反映しています。可能なカテゴリの第二のカテゴリーの中で最も可能性の高い確率の確率はより著しく大きい場合には、分類器は非常に必ずデータがどのカテゴリに属していることである。この背後には、この値の意義があることです。同様に、最も可能性の高いカテゴリの確率がはるかに大きい第二のカテゴリーの確率は、このデータの分類子がどのカテゴリに属している可能性よりも、されていない場合は、必ずそうではありません。したがって、能動学習アルゴリズムは、トレーニングデータのようなデータのSMUの最小値を選択します。

3.2 最小信頼不確実性

 

最小信頼不確実性(最小信頼不確実性、LCU)は、学習データとして最も不確実なデータ分類を選択することです。のみ最小限の不確実性のカテゴリを選択し、トレーニングデータとしてそれらを選択するのLCU値。

3.3 エントロピーリダクション

 

エントロピーは確率変数の不確実性の尺度とすることができます。この実験では、シャノンのエントロピーを使用しました。シャノンエントロピーは、いくつかの基本的な性質を有する:(1)均一に分布し、最大の不確実性を有している;(2)不確実性は、独立したイベントの重ね合わせである;(3)の増加は、それらのデータのゼロ確率に影響を及ぼしませんでした。(イベント4)は決意の結果[6,7]に影響を及ぼしません。出力予測として分類は、我々はシャノンエントロピーの出力を測定することができます。

大きなエントロピー値は、不確定性[1]の確率が大きくなることを意味します。能動学習の各ステップにおいて、訓練データのトレーニングセットのデータは、最大エントロピー分類であるため、エントロピーは、予測されたカテゴリを超えて、トレーニングデータとして最大エントロピーを選択する確率を計算するために、能動学習アルゴリズムを無印それは、ほとんどの不確実なデータカテゴリです。

3.4 不確実性の最大マージン

 

不確実性の最大マージン(最大マージンの不確実性、LMU)は、すなわち、最も可能性の高いカテゴリの確率を引い可能性が最も低いカテゴリを確率の最高と最悪を反映しています。最も可能性の高いカテゴリの確率が最も低いカテゴリーの確率よりも有意に大きい場合、非常に分類器のデータがどのカテゴリに属していると判断されます。この背後には、この値の意義があることです。同様に、最も可能性の高いカテゴリの確率が最も低い確率のカテゴリよりもはるかに大きいされていない場合、データの分類がどのカテゴリに属する​​確かそうではありません。したがって、能動学習アルゴリズムは、トレーニングデータとして最小のデータ値LMUを選択します。

4. アルゴリズム

以下は、能動的学習アルゴリズムのプールに基づいています。フローベースの能動学習アルゴリズムが同様に書き込むことができます。

 

分類器を訓練するので、分類作業の大規模開発が得る前に、主要なボトルネックとなっているタグデータ、大量のを必要とします。しかし、研究者たちは今、能動学習ので、我々は戦略的に分類器のトレーニングの必要性を訓練の数を減らすために、特定のデータを選択することが可能となります。

あなたは、アクティブな学習が最高の実験デザインとして知られていることが文献に表示される場合があります。したがって、私は能動学習に関するチュートリアルを公開します、能動学習は非常にエキサイティングで有望なブランチにおける人工知能の分野であります!

関連参照:

[1] AJジョシ、F. PorikliとN. Papanikolopoulos、「マルチクラス能動学習forimage分類、」  2009 IEEEコンピュータビジョンとパターン認識に関する会議、マイアミ、FL、2009頁。2372年から2379年。

[2]郭ジュンチー、金輝唐とホン・江張の西安-盛華、龍ルイ、「二次元画像分類のためのアクティブ・ラーニング、」  2008 IEEEConference ONコンピュータビジョンとパターン認識、アンカレッジ、AK、2008、頁1-8。

[3] EYチャン、S.トン、K.ゴー、およびC.チャン。「画像検索のためのサポートベクトルマシンのコンセプト-dependentactive学習、」  マルチメディア上のIEEEトランザクション、2005。

[4] A.Kapoor、K.グローマンズ、R. UrtasunとT.ダレル、「オブジェクトの分類のためのGaussianProcessesとアクティブ・ラーニング、」  コンピュータビジョンの2007 IEEE第11回InternationalConference、リオ・デ・ジャネイロ、2007、頁1-8。

[5] https://becominghuman.ai/accelerate-machine-learning-with-active-learning-96cea4b72fdb

[6] https://towardsdatascience.com/entropy-is-a-measure-of-uncertainty-e2c000301c2c

[7] LM Tiwariさん、S. Agrawalさん、S.カプール及びA. Chauhan、「キューイングシステムにおけるメジャーofuncertaintyとしてエントロピー、」2011年国立大学院会議、クアラルンプール、2011頁。1-4。

[8] https://towardsdatascience.com/active-learning-tutorial-57c3398e34d

著者:ミシェル趙

Deephub 翻訳グループ:愛李(リ・アイ)

公開された23元の記事 ウォン称賛81 ビュー40000 +

おすすめ

転載: blog.csdn.net/m0_46510245/article/details/105220113