ネットワーク型自己標識法に対するインクリメンタルビルド深さを学ん半教師

1.概要

    成功はよくマークされ、大規模なトレーニングデータのニューラルネットワークの深さに一因です。しかし、非常に困難な情報へのアクセスを標識する近代的なデータ収集の成長の大きさ、と。本論文では、ネットワーク型の対立を生成半教師の自己標識法に基づくインクリメンタル深研究を提案し、仮想タグデータ配信によるトレーニングプロセスを容易にするための方法は、無印であり続けます。具体的には、仮想タグ割り当て処理は、紙は、自己マーキング時間に基づく方法を紹介します。その後、訓練過程のデータを動的に複数の仮想タグを割り当てるために、紙は、スクリーニングの増分更新ラベルと段階的なアプローチを採用しています。最後に、紙は、バランストレーニングサンプル中の項目(バランス係数用語、BT)、情報の損失をバランスさらなる因子を導入します。

2.はじめに

    式(ガンス)を使用してネットワークに対して半教師付き分類のために、ほとんどのネットワークは、GaN k個のクラスに対応する従来の識別器を変更することによって農産物のk個の出力に使用されます。さらに、標識されていないトレーニングデータを利用するために、典型的には識別器を同定する能力を増強するために発電機からの追加セクション(K + 1)番目のクラスを生成します。後者の機能は、真のデータと偽のデータを区別するためのより多くの情報を抽出することができます。

    紙は、インクリメンタルマーキング方法(ISL -GaN)から探索に専用、およびGANの分野における分類性能を向上させるために、ロバストSSL(SSL)フレームワークに埋め込ま。

3.メソッド

    まず、トップラベルの予測の精度は、トレーニングプロセスで、タグデータとラベルなしデータを含むトレーニングデータのほとんどは、正しい予測されています。さらに試験にノイズマーカのモデルのロバスト性は、紙ラベルエラーのある割合は、最終テストの精度に影響を与えないことを見出し、モデルのトレーニングにいくつかのサンプルエラーフラグを追加しました。

    以下は、提案された紙のモデルを説明しています。図1に示すように、提案されたモデルは、2つの部分から構成:最初の部分は、半教師GANモデルの整合性に基づいています。第二の部分は、タグ付けされたトレーニングデータセットを更新するための信頼性の高いデータのための仮想タグを割り当て、定期的にエポック仮想ラベル標識されていないデータを割り当てる責任があります。

ここに画像を挿入説明

進捗GANので、図1インクリメンタルマーク(isli -GaN)。モデルの2つの部分のためのグレーとオレンジ。異なる形状は、入力データの異なる標識を表し、データは青、グレータグなしでマーク

    ネットワークの安定、誤分類の低い確率の訓練サンプル出力の異なる段階で知られ、簡単に誤分類されたサンプルは、多くの場合、必然的に、サンプル出力の不安定化につながる分類のエッジ付近で発生します。これを念頭に置いて、順番に各トレーニングサンプルは、安定性を確保するために、歴史的な出力の平均数を算出した紙を選択し、比較的安定を維持し、仮想ラベルを確保します。

    この方法を使用してアカウントに正しく半教師によって予測し、高いデータレートラベル、紙の最終調査サンプルを採取し、トレーニングデータセットを更新するために、仮想ラベルラベルなしデータを設定することもできます。非標識された試料は、カテゴリラベルで数回割り当てられていた場合は、サンプルの仮想ラベルとして、このクラスラベルを置きます。トレーニング中に、ある非標識サンプルを効果的に、これにより、分類精度を向上させる、SSL標識されたサンプルの数を増やすことができ、仮想タグを割り当てます。

    ここでは、サンプル仮想タグが割り当てられているとして、信頼性のしきい値を設定する必要があります。この閾値が高すぎる、低すぎないことはできません。設定が高すぎる場合は、100%の自信は、になります言う:算出した損失値が0、モデルにありませんさらに、更新されたときに我々が更新されたデータモデルのこの部分を使用した場合。低すぎると、このデータの一部になることは信頼され、このアイデアは、訓練データに反しているため、我々はそれを使用することはできません。したがって、仮想標識されたサンプルの寄与を増加させるために低損失モデルに装着された、元のクロスエントロピー損失CEに因子項目(BT)EXP(ピン)をバランスさ紙、下記式表現による監督の最終的な損失は、(詳細ここで、元の紙モデル損失関数、基準式によって導入のみバランス係数所与の用語)を参照:
ここに画像を挿入説明
PIは、クラスに属するサンプルの確率を示すI、クラスIのワンホットエンコードされた値のYIを表します。パラメータnは、重量バランス係数の重量損失に対する制御され、デフォルト値は2.0です。

4.おわりに

    実験結果は、方法がMNIST、最新のSSLとSVHN CIFAR-10のデータ・セットの結果を得られることを示しています。具体的には、試料標識条件不利な性能の紙のモデル。1000のだけ標識画像データセットに対してCIFAR-10は、測定誤差の11.2%を達成することができ、および1000は、500 SVHN標識されたデータセットに対して、3.5%のほぼ同一の性能試験誤差を達成することができます。
ここに画像を挿入説明

さらに興味深い情報スキャンコード懸念BBIT
リリース6元記事 ウォンの賞賛0 ビュー39

おすすめ

転載: blog.csdn.net/ShenggengLin/article/details/105301847