MDNet：ビジュアルトラッキングのためのマルチドメイン畳み込みニューラルネットワークを学習

概要：この記事では、視覚追跡のために使用されています。現在CNNsのために素敵なパフォーマンスを得るために、多くのデータを必要としますが、数が少なすぎるとマークビデオデータと異なるフォアグラウンドとビデオの背景に異なる定義がありますので、著者は多くを設定することでMDNet、最後の層を提案ターゲット間の共通の特徴を学ぶための分岐。

示されているように、訓練中の各ビデオは完全に接続されたレイヤ2分類、前景領域と背景のスコアのために出力された分岐する必要があります。テストでは、フロント層、およびオンラインアップデートFC4、FC5、FC6のパラメータに接続され、新しいフルFC6接続層を、すべての枝を取り除きます。

ソースからトレーニングプロセスの概要：

まず訓練及びGTする画像のシーケンス、GTファイルを読み取り、各行は、4つの値を持つの左上隅の座標と幅と高さを表しています。8つの値であれば、四つの値に変換される4点の座標。次に、コンフィギュレーション・ファイルを読み込みます。
リード配列は、分岐Kの数、及び規定された配列のそれぞれについて、サンプル・ジェネレータに応じて決定されます。
層のパラメータ設定が更新される初期モデル。そして、損失関数は、オプティマイザを定義しました。
トレーニングプロセス、50回の合計を訓練コードセットを開始します。その後、トレーニングのためのシーケンスの新しい順に応じて、枝をスクランブル。ピクチャの順序を破壊するために、各ブランチのための訓練、サンプル生成部32は、8つの陽性サンプルおよび96個の陰性サンプルGT位置の各々を生成する際に、各サンプルは、モデルへの入力として、図形（3107107）です。1つのエポックでは、トレーニング・シーケンスのみ8とそれぞれ。次のエポックが、正および負のサンプルは、シーケンス発生器8の各々から選択されます。[0.7,1]、[0,0.5]との間に負のサンプルGT IOUとして定義との間に正のサンプルGT IOUとして定義。
モデルに正および負のサンプルが失われ得るため、逆方向伝搬損失は、各層のパラメータを更新します。

ソースからのテストプロセスの概要：

テストシーケンスの写真によれば、取得した引数は、対象画像の位置及びすべてのターゲット（オプション）の最初のフレームをGT。
モデルの初期化は、訓練されたモデルファイルを読み込みます。パラメータが更新されることができる設定すると、固定化されたFC層のパラメータ、すなわちレイヤパラメータの畳み込みです。
最初のフレームを読み出し、フレーム500の目標位置の近傍からの最初のサンプルが陽性試料と陰性試料5000を得ました。
第3の層の正及び負のサンプルを得た訓練されたモデルにこれらの正および負のサンプル。
上記で得られた学習特徴のため、正と負のサンプル。サンプル正バッチサイズ= 32をトレーニングするとき、陰性サンプルは= 1024 BATCHSIZE。1024この負のサンプルハード例えば採鉱、スコアを算出し、降順に、最初の96が真の陰性試料として採取し、これらの負のサンプル請求FC4モデルに入ってきます。
前記ポジティブサンプル及びネガティブサンプルスコアスコアをもたらすモデルFC4に正と負のサンプル。次いで、バックプロパゲーションは、スコアに従って、パラメータを更新します。このような微調整得られた最初のフレームのサンプルを介してネットワークのパラメータ。
最初のフレームの位置から発生する1000個のサンプルは、フレームのリターンを訓練するために使用されます。
次に、全てのフレームを横切る、算出された位置のガウス分布からサンプリングされた256個のサンプルは、次いで、256個の5の前に採取したサンプル、および現在のフレームの5つの試料の代表の平均スコア場所をターゲットにしています。
0より大きい上記5バウンディングボックスによって得られた平均スコアを示している場合、成功を追跡します。成功した場合は、デバイスを使用する前に、良いトレーニングのリターンは、境界の位置に戻ります。失敗した場合は、BBOXとノーリターンは、最終的な結果として得られません。
トラッキングが成功した場合、正および負のサンプルフレームコレクタが、前記正および負のサンプルの総数が一定値に達すると、前記前面は削除します。これらの特徴は、長期ネットワークの更新のタイミングを追跡する短期ネットワーク障害および更新のために使用されます。

オリジナルのアルゴリズム：

MDNetオンライントレーニングおよびトラッキング処理

MDNet：ビジュアルトラッキングのためのマルチドメイン畳み込みニューラルネットワークを学習

おすすめ