オブジェクトトラッキングの紙のノートのための完全畳み込みシャムネットワーク

概要。

伝統的に、任意のターゲット追跡問題は訓練データとして映像そのものを使用して、オンライン学習目標のモデルの出現によって解決されます。これらの方法の成功にもかかわらず、彼らはオンラインでのみ彼らのモデルの豊かさは、自然から学ぶことができる方法の限界を学んでいます。最近、いくつかの試みがネットワークの掘削畳み込みの深さを表現する能力を開発します。ターゲットが事前に知られている追跡しかし、我々は深刻なシステムの速度に影響を与え、ネットワークの重みを調整するために、オンラインで確率的勾配降下法(SGD)する必要があります。本稿では、データは、訓練終了シャムネットワーク、基本的な追跡アルゴリズムを使用して、完全な畳み込みをILSVRC15ビデオオブジェクト検出を設定します。リアルタイムフレームレート動作を越えて私たちのトラッカー、それは非常にシンプルですが、VOT2015ベンチマークで最も先進的なパフォーマンスを達成しているが。

前書き

我々は、オブジェクトが最初のフレームのみが矩形枠によって識別されるビデオ内の任意のオブジェクトを追跡考えます。アルゴリズムは、任意のオブジェクトを追跡するために必要とされ得るので、収集されたデータとトレーニング検出器を有することは不可能です。

長年の間、この問題を解決するための最も成功した例は、使用することですオンラインモードでオブジェクトを学習し、映像自体から抽出したサンプルの[1]の例をモデルの外観を起因MILTrack [2]に対するこのアプローチの成功、打た[3 ]、TLD [4] とKCF [5]大部分の機能。しかし、明白な欠陥の現在のビデオデータを使用して、学習の比較的単純なモデルです。コンピュータビジョンにおける他の問題は、大規模なデータセットから、ますます広く使用されて見たが、畳み込み深ネットワーク(CONV -nets)の訓練が、制約と、この研究を防ぐ深さでデータを監視リアルタイム動作の不足を監督検出器があるの各ビデオは、1つの応用例をご覧ください。

最近の研究は、他のが、関連するタスクとは別の訓練されたネットワークのコンボリューション深さを適用しようとすると、この制限を克服しようとしています。これらの方法は、[8,9]微調整マルチレイヤネットワークのいずれか浅ネットワーク機能の内部表現を使用してネットワーク(例えば、相関フィルタ)、[6,7]、または使用SGD(確率的勾配降下法)を使用します。浅いアプローチのネットワークを使用することにより、リアルタイムの要件を満たしていない結果のより高いレベルを達成するために追跡プロセスに完全なエンドツー学ぶの利点の利点、および使用SGDを負いません。

私たちは、すなわちに、別の方法を提案し、その後、畳み込み深さより一般的な類似性の学習問題を解決するためのオフラインネットワークの初期段階、追跡プロセスにおける類似の簡単な査定を訓練します本論文の主な貢献は、より高速なリアルタイム要件よりも方法を証明する現代のトラッキング、ベースラインでの競争力のあるパフォーマンスを得ることです。特に、我々は大きな探索画像にテンプレート画像を見つけるために双子のネットワークを訓練しました。スライディングウィンドウの緻密かつ効率的な評価を達成するために計算された2つの入力の相互相関によってバイリニア層:さらなる貢献は、画像の完全な畳み込みツイン検索に全く新しいネットワークアーキテクチャを提供することです。

私たちは、地域社会の多くは、タグデータセットを追跡する必要がないので、同様の学習方法は、比較的、無視されていることを前提としています。最近まで、利用可能なデータもコメントしてわずか数百の動画を設定します。しかし、私たちは、信じてImageNet大規模な視認チャレンジ(ImageNet大規模視覚認識チャレンジ、 ILSVRC) ビデオオブジェクト検出データセットが可能なモデルを訓練することができます(ImageNetビデオと呼ばれる後)が表示されます。加えて、同じ領域からビデオ追跡映像を使用するための訓練および試験の深さモデルの公平性は論争の点です。我々は我々のモデルはALOV / VOTにImageNetビデオから延び示し、追跡参照データセットは、テスト目的のために確保することができます。

追跡のための学習2ディープ類似性

解決することを学ぶすべてのターゲットの類似性を追跡するために使用することができます。お勧め関数f(Z、X)は、同じオブジェクト記述の2枚の画像は、それがハイに戻った場合、テンプレート画像z候補画像X比較の同じサイズになり、そうでない場合は低いスコアを学習します新しい画像におけるオブジェクトの位置を見つけるために、我々は徹底的にすべての可能な位置をテストし、最も類似した候補位置の外観を過ぎてオブジェクトを選択することができます。実験では、単純になりますテンプレートとしてオブジェクトの初期外観を使用しますビデオデータのマーク目標軌道からの関数fは、学習に集中することができます。

コンピュータビジョンでの広範な成功[11,12,13,14]のビューでは、我々は、畳み込みfの深さの関数としてのネットワークを使用します。ツイン[15,16,17]を解決するために一般的に使用されるネットワーク・アーキテクチャの同様の畳み込み深さ研究。関数gを結合することにより、同じ変換(Φ])を行うツイン入力ネットワーク、変換の最終結果
関数gは、単に距離又は類似性尺度で機能することがわかるΦは埋め込み関数です。シャム深畳み込みニューラルネットワークは、以前に顔検証[16,18,12]、キーポイントディスクリプタ研究[17、19]と使い捨て文字認識[20]や他のタスクに適用されています

2.1完全畳み込みシャムアーキテクチャ

ネットワークのコンボリューションをフルに活用、我々は提供することができますはるかに大きな探索画像ネットワークの入力としてではなく、同じサイズの画像の候補を。完全な畳み込みネットワーク最初の評価上のすべての子ウィンドウ翻訳密なグリッドの類似度を計算します。これを達成するために、我々は、組み込み関数の畳み込みを使用し、図の層の特徴の組み合わせを使用して、相互相関が得られたここに画像を挿入説明
Bが信号を表す実数であると各場所です。最終結果は、単一のスコアではなく、図に示すように、有限のグリッドは、図スコアに描かれました。φ(z)は、ベクターが、図の特徴を有する空間構造ではありません。完全なコンボリューション双子のネットワーク構造:出力は、画像検索のサイズに依存スコアマップ、のスカラー値です。 これは、画像類似機能検索に翻訳評価ですべての子ウィンドウを計算することが可能となります。 本実施形態では、スコアマップピクセルは、類似度に対応する赤と青のサブウインドウを含みます。 色最高。完全なコンボリューション双子のネットワーク構造:出力は、画像検索のサイズに依存スコアマップ、のスカラー値です。これは、画像類似機能検索に翻訳評価ですべての子ウィンドウを計算することが可能となります。本実施形態では、スコアマップピクセルは、類似度に対応する赤と青のサブウインドウを含みます。色最高。

トラックにおいて、我々は、探索の中心とターゲット画像の前の位置を使用します。図フラクションの中心の位置に対する最大類似性スコアに対して、ネットワークの多重ステップ・サイズ、ターゲットの変位は別のフレームから得られたことができます規模の変化に対応し、追跡すること、それはまた、検索するための様々なサイズを使用しています。使い捨てネットワーク対融合相互相関は数学的に各翻訳図の子ウィンドウが評価されている、請求融合産物を使用するのと同等の評価を特徴と大きな画像検索、オン。

大規模な検索画像と2.2トレーニング

本論文では、ネットワークを訓練するための正と負の試料を用いて、判別方法を使用しています。ロジック・ロス:

ここに画像を挿入説明
V形のペアである-実際の類似度候補画像、y∈{-1,1}が真値タグです類似候補画像-トレーニング中に、我々は、効率的に一回のマルチテンプレートを生成するために、ネットワークの完全な畳み込みの特性を使用して、テンプレート画像と大きな検索画像(探索画像を複数のサブグラフ候補を含む)の使用しますスコア。最終的なスコアマップを生成します。損失の単一のサンプルの平均のスコアマップのセット全体の損失:
ここに画像を挿入説明
図Uの格子点Dの各位置、タグ真値y [U]∈{-1,1} 。

確率的勾配降下アルゴリズムの使用の機能喪失は、畳み込みネットワークパラメータθによって得ることができる:
ここに画像を挿入説明
焦点を検索対象画像及びサンプルの中心としてテンプレート画像を注釈付き映像データから抽出し、図に示すように。ウィンドウは、サブレンジ画像を越えて延びている場合、欠落している部分は、RGB平均値が充填されています。
ここに画像を挿入説明

各テンプレート画像と探索画像は二つの同一の映像から抽出され、二つのフレームは、ターゲット、およびTフレームの最大間隔を含みます。ターゲットカテゴリは完全に訓練では無視されます。損傷することなく、画像内の各物体の大きさのアスペクト比の画像が正規化されます。ない以上(すなわち、1の真値)、陰性試料の残りの部分(の真値-1)属する陽性サンプルの中心位置から半径Rよりも図面の最終スコア不均衡カテゴリを排除するために、損失関数の正および負のサンプルを重み付け。R値はステップによって決定される:
ここに画像を挿入説明
対象画像の検索を中心にサブウィンドウターゲットから最大地域トラッカーのパフォーマンスへの影響が近いので、検索効率を向上させます。

トラッキングのための2.3 ImageNet動画

2015大規模視覚認識チャレンジImageNet
(ILSVRC)[10]は、新たな目標検出課題として設定ImageNetビデオ映像データを導入しました
参加者は、30分類する動物や乗り物の異なる種類のオブジェクトの種類と配置を必要とします。唯一のトレーニングセットは、ほぼ4000のビデオ、コメントを100万人以上のフレームの合計が含まれています。ALOV [1、[22] VOT場合 】 ビデオの500未満タグ配列の合計とOTB [23]、この図は、特に印象的です。我々は、このデータセットは、その巨大なサイズのものだけでなく、大きな関心の追跡コミュニティをリードする必要がありますが、またそれは標準のトラッキング、ベースラインと異なるシーンやオブジェクトを記述しているので信じています。このため、安全にこれらの分野で使用されるビデオ規格をオーバーフィッティングを恐れることなく、トレーニングモデルの深さを追跡するために使用することができます。

2.4実用的な考慮事項

データセットのキュレーション

  • ターゲット追跡のためImageNetビデオをより適切にするために、我々は、以下の修正を行いました。これらのオブジェクトは、その矩形の小部分を占めるか、画像のエッジまで延長する傾向があるとして、我々は、ヘビ、列車、クジラとトカゲをあきらめました。
  • 私たちは、0.75よりも面積の大きいを除外2未満又は0.1 2オブジェクト。
  • 我々は、被写体距離に画像のフレームのエッジは平均粒径の5%未満である除外しました。これは、切り捨て対象画像の境界の例を排除することです。

843371からなる2820年の目標ビデオによるデータセット。

スケールの正規化

  • 訓練では、我々はテンプレート画像サイズは127×127ピクセルで使用している、画像検索は、255×255ピクセルですPのサイズ(H、W)、および背景の塗りつぶしのためのバウンディングボックスのサイズは、次いで、スケーリング係数Sは、画像サイズがスケーリング定数であるようなものでなければならない場合は、次の
    ここに画像を挿入説明
    テンプレート画像については、A = 127 2、画像を検索するとき、A = 255 2背景塗りつぶし(+ H w)のサイズp = /セット 4。テンプレート画像と検索が訓練プロセスの大きさの変化を避けるために、前処理を通過します。

ネットワークアーキテクチャ
本紙ら2012 Krizhevskyで使用埋め込み関数φネットワーク構造Alexnetは、パラメータおよび各層の寸法は表に示されています。前記入力及び出力層のChan.map畳み込み当たりのチャネルの数を表します。
ここに画像を挿入説明
このプーリング層のために、我々は(マックス・プーリング)の最大のプールを選択します。第5層に加えて、それぞれの層の後に非線形活性化関数の畳み込みを用いReLUは最後の層です。線形ブロックとすぐに、各層の後、プロセスを正規化学習(バッチ正規化)。最後のステップは8でした。重要な点は、我々は(パディング)を埋めるために国境を考慮していないされています。

追跡アルゴリズム
より洗練されたトラッカー異なると、私たちはモデルの外観を更新したり、過去の記憶を保持しない、我々はそのようなオプティカルフローや色ヒストグラムなどの他の手がかりと組み合わせていない、我々は我々の予測を改善するために、バウンディングボックスの回帰を使用しないでください。しかし、追跡アルゴリズムは非常に単純である一方で、私たちが使用することを知ったときの類似度メトリック機能は、それが良い結果が意外なったとき。我々はいくつかの基本的な時間制限を追加しました:私たちは、以前面積の約4倍のサイズ内にオブジェクトを検索し、大きな変位による影響を低減するための図スコアでコサイン・ウィンドウを追加します(この部分は完全には理解ので、コードを再度更新読み出されていない)画像処理の複数のスケーリングされたバージョンを検索することによってスケール空間を達成するトラック。サイズの変更は、更新の現在のサイズにも影響を受けることになります、処罰されます。

3回の実験

3.1 VOT 2015ベンチマーク

すべての私たちの実験では、我々は、オブジェクトのVisualの最新の安定版の使用
トラッキング(VOT)ベンチマークを。VOTは、シーケンス内のトラッカー60を評価します。7挑戦シーンの選択順序はよく表しています。データセット中に元々存在する多くの他の配列(例えばALOV [1]とOTB [23])。

VOTベンチマークセットでは、ボックス0とクロス交差点オーバー組合(IOU)の割合の真の価値をバウンディング投影したとき失敗したとみなされ 、 障害発生後の5で、トラッカーは、自動的に初期化されます。:トラッカーは、2つの性能指標に基づいて評価される精度と正確さと堅牢性の堅牢。失敗の総数を表し、前者IOU算出された平均、これらの2つのインジケータがよくトラッカーのパフォーマンスを反映することができます。しかし、使用して追跡を比較するために単一のインデックスを得ることが期待される平均断面平均Coverlapその尺度予想よりも、平均指数計算IOU、および障害の後に再初期化されていないが。

3.2実装の詳細

トレーニングネットワークツイン2.2 SGD損失最適化関数を介しているパラメータは、ガウス分布のパラメータの初期値を来る、ザビエルは、[25]スケーリングに従った方法を改善しました。トレーニングは、それぞれ50,000サンプルを右含む、50回の反復を行いました。陰性サンプル対を選択する確率0.25テンプレート画像と探索画像上の異なるビデオ、陰性サンプル(-1すなわち、真値)に属する図の全ての位置の最終的なスコアからの負のサンプル。少量(ミニバッチ)を処理する各世代の反復サイズは、8です。10からの学習率幾何学的方法アニール-2 10に減少。5最後に、我々はすべての線形層の背後にある収束を加速する正規化処理(バッチ正規化)に続いてブロックを使用します。

追跡オブジェクトの元の外観は埋め込み一度計算φのみ機能し、次いで畳み込みサブウィンドウ後続フレームの形で比較されています。バイキュービック補間により、スコアは、図から拡大することができる。17×17×257 257に、より正確なターゲティングを得ました。スケールの変化に応答して、1:03本明細書中に{-1、0、1}のターゲット範囲を検索し、線形補間(0.65の係数)により、スケールの変化に適応します

3.3データセットのサイズ

表2は、パフォーマンスに影響を与える方法を大幅にトレーニングデータセットの双子のためのネットワークの大きさを示しています。この知見は、映像データセットのより一層の活用がさらにパフォーマンスを向上させることができますことを示唆しています

3.4ザ・VOT15ベンチマーク結果

方法私達は第2節(SiameseFCシャムFullyConvolutional用)62最高のトラッカー比較の2015年版のVOTの挑戦[22]で説明したように。EAOトラッカーの所望の平均として、図3のオーバーラップをソート。それは簡単ですが、私たちの方法が最善の中で、最も競合他社のトラッカーよりも優れていますが。結果は、データのみの大規模なセットで訓練を受け、当社の完全な畳み込みシャムネットワークの発現類似性尺度は、最高の結果を達成するのに十分であることを示しました。私たちは(、バウンディングボックス、微調整、メモリへの復帰、例えばモデルの更新を)パイプラインオンライン追跡を拡張するために、多くの場合、コミュニティを追跡するために使用される方法を用いることで、より高い性能を実現することができると信じています。

ここに画像を挿入説明
表3は、生のスコアを報告し、速度は15最高のトラッカーに挑戦します。低複雑の我々の方法は、高速な実行速度は:ネットワークは130ヘルツで評価することができ、全体のトラックの走行速度は最速で唯一のリアルタイムパフォーマンスの追跡、はるかにそれを作る、65フレーム/秒でありますデバイス。MDNet畳み込み及びSO-DLT追跡他のネットワーク機能と比較して、我々のシステムの性能は、特に場合は、特に興味深いです。実際に、彼らはネットワークオンラインSGDが厳しくそれらの適用を制限する電流ビデオ、に適応させるために実行する必要があります。

ここに画像を挿入説明
アーキテクチャについて説明において、我々はまた、ResNetアーキテクチャ[33]との性能を測定したことを除いて、表1は、簡単な追跡と同じです。この実験では、我々は、事前に訓練されたイメージ・ネットからのモデル、その後、微調整パラメータを開始します。7「ボトルネック」とブロック初期コンボリューション、相互相関への入力から最長の直線経路におけるネットワーク層22によって。深いモデルは、パフォーマンスが向上します。私たちのベースラインSiameseFCと比べて、14%の予想平均増加を重ねます。それにもかかわらず、システムはまだリアルタイム(25フレーム/秒)で目標を追跡することができます。

4関連作品

最近のいくつかの研究では、トラッキングの問題を解決するためのリカレントニューラルネットワーク(のRNN)を養成することを試みてきました。ガンらによって、各フレームにおけるターゲットの絶対位置を予測するために、[34]トレーニングRNNらスルーKahou [35]マイクロRNNトレーニングノートトラッキング機構を使用して。

現在の研究外観と最初のフレームの外観を比較する距離メトリックを使用してフィルタを持つオブジェクトを追跡するために、パーティクルフィルタを用いDenilら[36]。しかし、私たちとの距離メトリックは非常に異なっています。これらは全体比較画像のオブジェクトが、固定小数点演算との間の距離(かろうじて見える物体小領域の境界ボックス)ではありません。
..................

他の著者はまた、双子のネットワークの文脈での追跡を使用することをお勧めします。タオらは、オブジェクトのシャム初期外観を認識するようにネットワークを訓練するために、SINT(トラッキングのための例示的な検索トラックシャムシャムインスタンスの検索)を提案した候補画像の位置に一致します。私たちの方法と比較すると、彼らは探索画像のためのフレームワークを採用していない完全に畳み込みです。代わりに、[3]打たのように半径を変化させるの円上に均一に試験時間、それらサンプルバウンディングボックスに。また、それらは、結果を改善するために、オプティカルフローとバウンディングボックス回帰を組み込む。そのシステムの計算速度を改善するために、それら効率的に多くの重複のサブウィンドウを調べるためにプール関心領域(ROI)を使用しなければならない。この最適化にもかかわらず、システム全体の速度がはるかにリアルタイムであることから、まだです。

5。結論

本研究では、オンライン学習の伝統的な方法から出発し、学習に集中するオフライン段階では、メソッド補完を実証し、強力な組み込み関数。分類問題での使用とは異なり、我々は、利用可能なデータをより効率的に使用するアプリケーション、完全な畳み込み深ネットワークを追跡することを証明しています。これは、テストに(効果的な探索空間の実装により)を反映し、それはまた(訓練の時に、それぞれの子ウィンドウを効果的に有用サンプル、事実上、追加費用なしを表す)の訓練に反映されています。実験は、深く埋め込まれた自然の豊富な機能を備えたオンライントラッカーを提供し、非常にシンプルで、より良い結果を達成するためにことを示しています。私たちは、このアプローチは、より洗練されたオンライン追跡法を補完することを信じて、この関係のより詳細な探査作業を楽しみにしています。

ここに画像を挿入説明

リリース元の2件の記事 ウォンの賞賛9 ビュー166

おすすめ

転載: blog.csdn.net/qq_45171138/article/details/104315472