MDNet、SiamFC、ADNet、CFNet、LSTM (RNN)...すべてをマスターしましたか? この記事では、ターゲット追跡に必要な古典的なモデルをまとめます (1)...

フォローしてスターを付ける

決して迷わない

コンピュータビジョン研究所

5247c1562664ca6317a753492c2e7e3e.gif

08cb219f439dc81623665ad320c288f3.gif

b54b19ef4f6a5ec5109fdb6d69be2529.png

パブリックアカウントIDComputerVisionGzq

学習会参加方法はホームページのQRコードを読み取ってください

コンピュータビジョン研究所コラム

著者: Edison_G

この記事は2フェーズに分けて連載され、ターゲット追跡タスクでSOTAを実現した計10の古典的なモデルを紹介します。

  • 問題 1: MDNet、SiamFC、ADNet、CFNet、LSTM (RNN)

  • 第2期:SiamRPN、SiamMask、UpdateNet、SiamAttn、SiamGAT

あなたはこのうち第 1 号を読んでいます。

『ザ・ハート・オブ・ザ・マシン』より転載

0b8c9cb835404f0716901e81b40edadf.jpeg

0ee3add0a26c58dff4976e0600eb5b3b.jpeg

b36c8324e5d868b901abc106d5fd16f4.jpeg

242d0207509356b87756046983902ad4.jpeg

99028e24d909b71d0a0b0f08efd7dd66.jpeg

73994ec19b03e35111aab71f1a898a1c.jpeg

1dae7dd5bebc8cbb3c7114b98bd00395.jpeg

acf930ecff70447337f85c8e0e66952f.jpeg

4b95cb5d2f663c4630deec21561c8bb1.jpeg

b6130eceef6a63c0e7fb8b165e4d996c.jpeg

e4cfe3253b296f114d0811573239fda9.jpeg

5a41211d688049842a3bb4b7e06cc42d.png図 3. この論文で提案した連続アクションによって制御される視覚追跡の概念。最初の列はオブジェクトの初期位置を示し、2 番目と 3 番目の列は各フレームでオブジェクトの境界ボックスを見つけるための反復アクション フローを示します。

ADNet の完全なネットワーク アーキテクチャは次のとおりです。

a37caaa2c4ca944bb9c0c2ba35e9a2c6.png図 4 ネットワーク構造。破線は状態遷移を示します。この例では、ターゲット オブジェクトをキャプチャするために「右に移動」アクションが選択されています。このアクション決定プロセスは、各フレーム内のオブジェクトの最終位置が決定されるまで繰り返されます。

まず強化学習部分を分析します。
(1) ステータス。状態 s_t は、p_t と d_t の 2 つの部分に分割されます。このうち、p_t は追跡対象の bbox (現在のピクチャ情報) を表し、d_t は最初の 10 個のアクション (そのうち 11 個は 11 個の異なるアクションを表す) を格納する 11x10=110 次元のベクトルで、ワンホット エンコーディングを使用して表現されます。
(2) アクション。3 つのカテゴリに 11 のアクションがあります。1 つ目のタイプは移動(上下左右および高速の上下左右)、2 つ目は拡大縮小(ズームインおよびズームアウトを含む)、3 つ目は停止(操作を終了)です。

5f9be9676a2118c58415f53023885e6d.png

(3) 状態遷移。違いを次のように定義します。

6dd69e1bbbc3c3adb7e251a0e1ffbe37.png

上下左右のアクション (など) の場合:

5099d6f30d14aff9f93cbd49642fc9bc.png

上下左右の素早いアクション (など) を行う場合:

14c6e3cf7648e2e6e34d9b86f5d3f71b.png

スケーリングアクションの場合:

fd155a171c3865f59aa8fdbf9ec29388.png

(4) ご褒美機能。アクション シーケンスの長さを T とすると、報酬は次のように定義されます。

4fa8354f308806bd6aaad2047f755f35.png

アクションの終了のトリガー状況は 2 つあります: ①. 停止アクションが選択されたとき、②. アクションのシーケンスが変動を生成したとき (例: {left、right、left})。

次に、トレーニング部分を分析します。
(1) 教師あり学習部の学習部
{w1,w2,...,w7} を学習させる部であり、学習部のアクションラベルは以下の方法で取得します。

a8541802cb961689697cd702b6583165.png

クラスラベルの判定は以下の通りです。

359b49cda0e9749afc96602198311a04.png

損失関数は次のとおりです。

05b27c7dc41197e411208abff2a8e83b.png

(2) 強化学習部分をトレーニングします。この部分は SGD を使用して最大化しています。

20937b9bbfe9f77516f53210d0b6c57c.png

このフレームワークは、グラウンドトゥルース{Gl}が部分的に与えられている場合、つまり、図5に示す半教師あり設定であっても、ADNetをトレーニングできます。教師あり学習フレームワークはラベルのないフレームから情報を学習できませんが、強化学習は半教師ありの方法でラベルのないフレームを利用できます。RL で ADNet をトレーニングするには、追跡スコア {z_t,l} を決定する必要がありますが、ラベルのないシーケンスの追跡スコアはすぐには決定できません。代わりに、追跡シミュレーション結果から得られた報酬に追跡スコアを割り当てます。他の研究では、ラベルなしシーケンスでの追跡シミュレーションの結果がラベル付きフレームで成功したと評価された場合、ラベルなしフレームの追跡スコアは z_t,l = +1 で与えられます。失敗した場合、図 5 に示すように、z_t,l には -1 が割り当てられます。

1d2e3d2408a676ac90c6b541a8663cb9.png

図 5 半教師あり条件下での Walking2 シーケンスの追跡シミュレーションの図。赤と青のボックスはそれぞれ、真実の場所と予測されたターゲットの位置を表します。この例では、フレーム #160、#190、#220 のみがコメント化されています。連続したアクションでは、エージェントはフレーム #190 で +1 の報酬を受け取り、フレーム #220 で -1 の報酬を受け取ります。したがって、フレーム #161 から #190 までの追跡スコアは +1、#191 から #220 までの追跡スコアは -1 になります
(3) オンライン適応。オンラインでアップデートする場合は、{w1,w2,...,w7} のみをアップデートしてください。各フレームは、0.5 を超える信頼性スコアを持つ前のフレームのサンプルを使用して微調整されます。現在の信頼スコアが -0.5 未満の場合、「追跡が失われた」ことを意味し、再検出が必要です。

4、CFネット

異なるデータセット間のシーン (ドメイン) の差が大きく (ドメインの差が大きい)、視差の分布が不均衡であるため、既存のディープ ステレオ マッチング モデルの実生活への適用が大幅に制限されます。ステレオマッチングネットワークの堅牢性を向上させるために、この論文ではカスケードとフュージョンに基づくコストボリュームネットワーク、CFNet を提案します。具体的には、SiamseFC の構造に基づいた CF 層 (相関フィルター) を導入し、ネットワークをエンドツーエンドでトレーニングすることで、ネットワークの畳み込み層の数が精度を低下させることなく使用できることを証明しました。CFNet の全体的な構造を図 6 に示します。

12833e98087f09d6554dc05e32d76bc2.png図 6 CFNet の全体構造。ネットワークは 3 つの部分で構成されます: ピラミッド特徴抽出ネットワーク、融合コスト ボディ、およびカスケード コスト ボディ

CFNet ネットワークは、ピラミッド特徴抽出ネットワーク - ピラミッド特徴抽出、融合コスト ボディ - 融合コスト ボリューム、カスケード コスト ボディ - カスケード コスト ボリュームの 3 つの部分で構成されます。

ピラミッド特徴抽出ネットワーク。このネットワークは、マルチスケールの画像特徴を抽出するための、スキップ接続を備えたエンコーダー/デコーダー構造であり、5 つの残差ブロックで構成されています。マルチスケール フィーチャのコンテキスト情報をより適切に組み込むために、SPP (Spatial Pyramid Pooling、空間ピラミッド プーリング) モジュールが続きます。SPP モジュールは、特徴量に対して異なるサイズのプーリングを実行し、情報融合を実行します。
融合コスト。この論文では、複数の低解像度の高密度コスト ボリューム (元の入力画像解像度の 1/4 未満のコスト ボリューム、コードでは 1/8、1/16、1/32) を融合して、異なるデータを削減することを提案します。初期視差推定では、セット間でドメインがシフトします。多くの研究でマルチスケール コスト ボリュームの重要性が認識されていますが、これらの研究では一般に、低解像度のコスト ボリュームには正確な視差マップを生成するための特徴情報が不十分であると考えられているため、破棄されます。しかし、論文では、異なるスケールの低解像度コストのボリュームを融合してグローバルな構造化表現を抽出することができ、それによって生成される初期視差マップはより正確 (堅牢) になると考えています。具体的には、低解像度のコスト ボリュームが各スケールで構築され、フィーチャの連結とグループごとの相関を使用して同時に融合コスト ボリュームが生成されます。式は次のとおりです。

97959d9f6319030df3ee2fc94c5709bc.png

次にコストボディを融合します。図 7 に示すように、まず、コスト ボリュームごとにスキップ接続を備えた 4 つの 3D 畳み込み層 (各ブランチの最初の 4 つの青いブロック) を使用します。stride = 2 で 3D 畳み込みを使用すると、scale3 の解像度が 1/8 から 1/16 に減少します。次に、ダウンサンプリングされたスケール 3 とスケール 4 が連結され、追加の 3D 畳み込みによって特徴チャネルがスケーリングされます。同様の操作を続けて、scale3 のコスト ボリュームを元の入力画像解像度の 1/32 に徐々にダウンサンプリングし、情報をscale5 と融合します。最後に、3D 転置畳み込みを使用してコスト ボリュームをアップサンプリングし、コスト ボリュームをアップサンプリングします。特徴情報を使用して調整します。 。初期の視差マップは、洗練されたコスト ボリュームに対して視差回帰 (ソフト argmin 操作) を実行することで取得できます。

e21a8f2a91dc43efc425e9c0123c2603.png

cba47fa35b9fc2851f2c4cf90380c3f5.png

図7 コストボディ融合モジュールの構造。3 つの低解像度コスト ボリューム (i ∈ (3, 4, 5)) が融合されて、初期差分マップが生成されます。

連鎖的なコスト。初期視差を使用して、次のステップでは、高解像度のコスト ボリュームを構築し、視差マップを改良します。理想的な視差確率分布は単峰性である必要があります。つまり、位置が特定の視差に属する確率は非常に高く、他の視差に属する確率は非常に低いです。ただし、視差の実際の確率分布は主に多峰性です。つまり、特定の位置の視差はあまり確実ではなく、オクルージョンされた領域やテクスチャ化されていない領域でよく発生します。視差確率分布が多峰性になる傾向を定量化するために、不確実性推定を定義することが提案されています。

eb95123b933c0c159a450d916a735884.png

本稿では、現段階の不確かさに応じて次段階の視差探索範囲を計算し、その具体的な計算式は以下の通りである。

9919d34ab328ca4786de58346888d2bb.png

一様サンプリングに従って、次の段階の離散平面の仮想深さが得られます。

a379bbf022906f2b9ca33205136c3dbe.png


5、LSTM(RNN)

この論文では、長期にわたるマルチキュー依存関係をエンコードするためのオンライン追跡方法を紹介します。その中で、遮蔽された物体や類似した外観に囲まれた物体を区別して追跡できないという問題を解決するために、本論文では、RNNアーキテクチャを使用し、特定の時間窓内で複数の手がかりを組み合わせて追跡する方法を提案します。この方法により、データ関連付けのエラーを修正し、遮蔽された状態から元のターゲット観測を復元することができます。この論文では、オブジェクトの外観、動き、インタラクションの 3 つの側面を使用して、データ駆動型追跡アルゴリズムの堅牢性を実証します。


6d9b6314c50505f33b5bb77a120cbcdf.png

図 8 この論文は、複数のキュー (外観、動き、および相互作用) の長期的な時間的依存関係をエンコードすることを学習できる RNN 構造 (各 RNN ははしごによって記述される) に基づくアプローチを提案します。学習した表現は、「検出による追跡」アルゴリズムの類似性スコアを計算するために使用されます。

本稿では、類似度を計算するための新しい方法を紹介します。3 つの特徴抽出モジュールは、抽出された特徴を 3 つの RNN (A)(M)(I) に入力し、対応する特徴ベクトル (ϕA、ϕM、ϕI) を計算します。その後、これらのベクトルは RNN (O) に入力され、マルチ情報チャネルの最終的な特徴ベクトル ϕ(t,d) が取得され、このベクトルを使用してターゲット t と検出 d の間の類似性が計算されます。

まずは外観モデル(A)をご紹介します。外観モデルは主に再識別問題を解決するために使用されますが、オクルージョンやその他の視覚的な問題にも対処できるようにするためにも使用されます。外観モデルは CNN と LSTM 構造に基づいた RNN であり、まず、異なるフレームの軌跡ターゲット画像を CNN に渡して 500 次元の特徴ベクトルを取得し、次にシーケンスのすべての特徴ベクトルを LSTM に渡して取得します。 H 次元の特徴ベクトル、次に現在のターゲット検出も CNN に渡されて H 次元の特徴ベクトルが取得され、2 つの H 次元の特徴ベクトルが接続されて FC 層に渡されて、k 次元の特徴ベクトルが取得されます。外観を識別するための特徴ベクトル。最終的な φA 特徴に含まれる情報は、ターゲット i の長期出現特徴と検出 j の出現特徴に基づいて、両者が同じターゲットに属するかどうかを判断することです。外観モデルを図 9 に示します。

c06ecda85af9f71b82dede6836e55d48.png

図9 外観モデル。入力は、時間 1 から t までのターゲット i の境界ボックスと、比較する時間 t+1 での検出 j です。出力は、時間 t+1 の境界ボックスが時間 1、2、... の特定のオブジェクト i に対応するかどうかをエンコードする特徴ベクトル φA です。CNN を外観特徴抽出器として使用する

次に運動モデル(M)を導入する。運動モデルは主にターゲットが遮蔽されているかどうかを判断するために使用されますが、その主な問題は、邪魔なターゲット検出に遭遇した場合に悪い結果を招くことです。CNN を除いて、動きモデルと外観モデルの構造は類似しており、入力が画像から動きベクトルに変化するだけで、主に x と y の 2 方向の速度変化と、もう一方の次元が含まれます。出力と事前トレーニング操作は同じままです。図10。モーション特徴抽出器で抽出された 2 次元速度特徴 v_{i}^{t} は、次の式で計算されます。


5f9c05fb1308f18f2cf6c0973be030fb.png

0c575ee036eddb5f14f87afb4afc2e3b.png

図 10 運動モデル。入力はターゲット (画像平面上) の 2D 速度です。出力は、速度 v_{j}^{t+1} が真の軌道 v_{i}^{1}、v_{i}^{2}、....、v_ に対応するかどうかをエンコードした特徴ベクトル φM です。 {i}^{t}


最後に、相互作用モデル (I) があります。インタラクション モデルは主に、ターゲットとその周囲の間の力関係を扱うために使用されます。ターゲットの近くにある他のターゲットの数は変化するため、ネットワーク モデルで同じ入力サイズを使用するために、この論文では各ターゲットの周囲を固定の「占有ブロック」としてモデル化します。構造は運動モデルと同じで、入力だけが「所持ブロックグラフ」となり、他は変化しません。各ターゲットの周囲エリアを固定サイズの占有グリッド (占有グリッド マップ、0/1) としてモデル化します。インタラクティブな特徴抽出器は、ターゲットをグリッド中心とするグリッド マップを生成し、ベクトル表現に変換します。周囲のオブジェクトの bbox の中心がグリッド (m, n) 上にある場合、グリッド (m, n) の位置は 1 としてマークされ、空いているグリッドの位置は 0 となります。ネットワーク構造を図 11 に示します。数式は次のように表されます。


ac0009682bb9c5c13a33b1c8acc514d6.png

8637db72aaceb76c1c7239c63bee68fd.png

図 11. インタラクション モデル。入力は時間にわたる (画像平面上の) 占有マップです。出力は、時間 t + 1 での占有マップが時間 1、2、... t での占有マップの真の軌跡に対応するかどうかをエンコードする特徴ベクトル φI です。

外観モデル、動作モデル、および相互作用モデルから k 次元の特徴ベクトルが抽出された後、これらの特徴ベクトルが連結され、ターゲット RNN (O) の入力として使用されます。トレーニング プロセス全体は 2 つのステップに分けることができます。
まず、A/M/I の 3 つのサブモジュール RNN モデルと外観特徴抽出器 CNN を独立して事前トレーニングします。外観特徴抽出器 CNN は、最初に VGG-16 の事前トレーニングされた重みを使用し、最後の完全接続層を削除し、500 次元の完全接続層を追加します。次に、この構造を使用してシャム ネットワークを構築し、再識別データ セットでトレーニングします。最後に、学習済み CNN ネットワークを特徴抽出のみに使用し、識別力の強い 500 次元の外観特徴を取得できます。3 つのサブモジュール RNN はすべて、0/1 分類の事前トレーニングにソフトマックス分類器を使用します。つまり、RNN によって出力された k 次元特徴にソフトマックス層を追加し、陽性クラス/陰性クラスの確率を出力します。ここで、正のクラスは入力ターゲット i と検出 j が同じオブジェクトに属することを意味し、負のクラスはその逆であると定義します。
次に、ターゲット RNN(O) と上記の 3 つのサブモジュール RNN を共同でトレーニングします。つまり、ネットワーク パラメーターを同時に更新しますが、CNN は更新されません。これはエンドツーエンドのトレーニング プロセスであり、ターゲット RNN は検出とターゲットの間の類似性を出力する必要があり、ソフトマックス分類器とクロスエントロピー損失を使用してトレーニングされます。

© ジ・エンド 

転載の際はこちらの公式アカウントにご連絡の上、許可を得てください。

bb83fc3c16083331be2a1b44d4eaede6.gif

コンピュータビジョン研究所研究会は皆様のご参加をお待ちしております!

だいたい

コンピュータビジョン研究所

コンピュータビジョン研究所は主にディープラーニングの分野に携わっており、顔検出、顔認識、複数ターゲット検出、ターゲット追跡、画像セグメンテーションなどの研究方向に主に取り組んでいます。研究機関は今後も最新の新しい論文アルゴリズムフレームワークを共有していきますが、今回の改革で異なるのは「研究」に重点を置く必要があることです。その後、該当分野の実践的なプロセスを共有することで、誰もが理論を取り除く実際の現場を実際に体験し、プログラミングと頭脳思考を愛する習慣を養います。

VX:2311123606

1c72f8f17cf17636d3f1e411b13fbd9d.png

Supongo que te gusta

Origin blog.csdn.net/gzq0723/article/details/130939236
Recomendado
Clasificación