シンボル定義
- 予算の各反復のために選ばれた能動学習サンプル数
- 最初のトレーニングセット標識されていないデータは、非標識、参照設定\(U_0 \)
- ラベル付きデータセットの最初のトレーニングセットが標識参照するデータ初期、\(S_0 \)
クエリポリシー:コアセット
アクティブな各ラウンドは、コレクションに追加ラベルなしデータから選択された予算オーダーサンプルの最高のセットを見つけることの現在の問題として、予算のサンプル、このプロセスのためのコアセット方法を選択することになる学習\(S \) 、新規参入をポイント\(U \)が設定満たすために必要な\(S \)最大値からを。
ラベルフリーサンプル点\(U \)セット\(S \)距離:ポイント\(U \)セット\(S \) L2ノルムから用紙を用いて、各点の最小距離、。
注:選択されたサンプル点の最初の反復でないマーカーが存在しない点を有し、計算点\(U \)セット\(S \)の距離は、マークされていないサンプル点の最初の反復で選択されたときに参加すると考えられていますコレクション\(S \)距離計算に関与し、。
アルゴリズムの詳細
MIP(混合整数プログラム)最適化Gurobiアルゴリズム2、大規模なデータメモリのオーバーフローのために簡単に、より遅く。アルゴリズム1簡単、迅速、その効果よりも、アルゴリズム2は、後者の論文にやや劣ります。
実装コード
GitHubの- ozansener / active_learning_coreset(ソースコード)
のGitHub -グーグル/アクティブラーニング/ sampling_methods / kcenter_greedy.py
のGitHub - dsgissin / DiscriminativeActiveLearning / query_methods.py
発表論文:
セネル、O.、&サバレーゼ、S.(2018)。畳み込みニューラルネットワークのためのアクティブラーニング:コアセットのアプローチ。ICLRで(頁1-13)。より作成http://arxiv.org/abs/1708.00489
引用論文:
[1]ユ、D.、&Kweonは、(2019年)です。能動学習のための損失を学びます。CVPR、93-102。取得http://arxiv.org/abs/1905.03677
[2]シンハ、S.、・エブラヒミ、S.、&ダレル、T.(2019)。変敵対能動学習。ICCV。より作成http://arxiv.org/abs/1904.00370