【ペーパーノート】ASTPNアテンションスペースプーリングネットワーク

ビデオベースの個人再識別のための共同で注意深い時空間プーリングネットワーク

ビデオベースの
個人再識別のための共同で注意深い時空間プーリングネットワーク

概要

視覚的モニタリングおよび人間とコンピュータの相互作用における人のre-idの適用は非常に重要なトピックです。この作業では、ビデオ歩行者の再認識のための新しい空間的および時間的注意プールネットワーク(ASTPN)を提案します。これにより、特徴抽出器は現在の入力ビデオシーケンスに注意を払う必要があり、一種の相互依存するマッチングアイテムが直接影響を与える可能性があります。その他のパフォーマンス計算。具体的には、空間プーリング層は各フレームから領域を選択でき、実行れた注意時間プーリングはシーケンスから情報フレームを選択できます。これらのプーリングは両方とも、距離マッチングからの情報によって導かれます。
また、2次元の共同プールが、単独で使用するよりも効果的に人のre-idのパフォーマンスを向上させる方法を分析します。

前書き

歩行者の再識別:クエリ画像が与えられた場合、タスクはプールから一致する人物画像のセットを識別することです。通常、カメラは同じ/異なるオブジェクトから、異なる角度から、同じ/異なる時点でキャプチャされます。照明条件、視野角、体の姿勢、咬合が大きく変化するため、これは非常に困難な作業です。

歩行者の再識別の分野では、多くの研究が行われていますが、それらのほとんどは、
特徴表現学習、距離計量学習、畳み込みニューラルネットワークベースの方法(CNNベース)などの静止画像用です。スキーム)。

しかし、学習のための歩行者再認識のためのビデオシーケンスに基づいて、より多くのタイミング情報を取得することができ、より良いパフォーマンスが得られます。画像シーケンスは、人間の外観のサンプルを豊富に提供し、再識別のパフォーマンスを向上させるのに役立ち、より際立った機能を備えています。ビデオ画像からより良いパフォーマンスを得ることができる最も初期のモデルCNN-RNNモデルであり、距離関数を使用してそれらの一致度を判断します。ただし、これらの方法のほとんどは、各シーケンスの表現を個別に導き出し、他のシーケンスの影響を考慮することはめったになく、マッチングタスクのコンテキストで2つのビデオシーケンスの相互影響を無視します。
ビデオシーケンスを比較するときに、人間の視覚処理がどのように機能するかを考えてみましょう。ここに画像の説明を挿入

たとえば、上の図では、ビデオフレームを他の2つのbとcと比較すると、bとcが異なります。これは、異なるフレームでの脳の自然な焦点です。一方、比較シーケンス間の相互作用空間次元にも影響を与えるはずです。これは視点が大きく変化したり、オブジェクトがより速く移動したりするシーンで特に重要です。この例は、異なるビデオフレームペアを比較するときに異なる注意度を使用する必要がある理由を示しています(そのため、注意メカニズムが提案されています)。

最近の注意モデル[1,31,34,5]の成功に触発されて、ビデオシーケンス間の相互依存性を考慮しビデオシーケンス表現学習する方法あるCommon Attention Spatio-temporal Pool Network(ASTPN)を提案しました。強力なメカニズム。具体的には、ASTPNは最初に2つの入力アイテムの再帰的畳み込みネットワークから抽出された特徴の類似度を学習し、次に特徴間の類似性スコアを使用して空間次元(各フレームの面積)と時間次元(シーケンス上のフレームのアテンションベクトル)。次に、注意ベクトルを使用してプーリングを実行します。最後に、ツインネットワーク構造が注意ベクトルに展開されます。エンドツーエンドのトレーニングモデルを使用して、提案されたアーキテクチャを効果的にトレーニングできます。
ここに画像の説明を挿入

関連する作業(直接かつ適切な翻訳-前の作業を理解する)

最近の歩行者の再識別は、主に2つの側面に焦点を当てています。信頼できる特徴表現の抽出[28,6,11,19,15,38]または堅牢な距離メトリックの学習[14,41,2,30,36,37,21、13 ]。その中で、カラーヒストグラム[37,30]、テクスチャヒストグラム[6]、ローカルバイナリモード[30]、カラー名[40]などの機能は、光などの課題がある場合にID情報を解決するために人のリードで広く使用されています変更。同時に、Large Edge Nearest Neighbor(LMNN)[29]、Mahalanobis Distance Metric(RCA)[2]、Local Adaptive Decision Function(LADF)[13]、RankSVM [38]などのメトリック学習方法も適用されています。担当者のre-idタスクに。

近年、大きな進歩が見られますが、これらの作品のほとんどは、依然として主題のレベルに基づいています。ビデオは監視カメラによってキャプチャされた直接の情報であるため、ビデオ設定は直感的に実際のシーンに近くなります[4,3]。さらに、歩行などの人の動きに関連する時間情報は、類似した歩行者を区別するのに役立ちます。

次第に、実在の人物認識におけるビデオ間のマッチングの問題を探求する作品がますます増えてきました。識別ビデオランキングモデル[27]は、識別ビデオセグメントの選択を使用して、より正確な時空間情報を取得すると同時に、人物re-idのビデオランキング機能を学習します。Baozi [40]メソッドの目的は、フレームの特徴をグローバルベクトルにエンコードすることです。ただし、これら2つのモデルはどちらも、ビデオに含まれる豊富な時間情報を効果的に無視することはできません。ただし、ビデオベースの人物のre-idには、新たな課題があります。画像ベースの表現と比較して、動画ベースの表現では、外観が似ているだけでなく、アクションも似ているため、クラスによっては違いがぼやけている可能性があります。位置合わせが困難になります。したがって、これらの追加の問題を解決するには、時間的および空間的情報を最大限に活用する必要があります。また、時空間情報を有効活用するために、トッププッシュ遠隔学習(TDL)モデルを提案し、トッププッシュ遠隔学習(TDL)モデルを導入し、プッシュ制約を導入して定量化する。ファジービデオ表現[35]。

ディープラーニングは、特徴表現とメトリック学習の問題を同時に解決する方法提供します典型的なアーキテクチャは、特徴抽出ネットワーク(通常はCNNまたはRNN)と、最終的な予測を行うための複数のメトリック学習レイヤーの2つの部分で構成されます。人物リードの最初に提案されたsiamese-cnn(SCNN)構造[33]は、3つのSCNNのセットを使用して、画像の3つの重複部分を処理します。[32]は、フレームレベルの特徴の区別されたシーケンスレベルの表現を学習できる新しい再帰的特徴集約フレームワークを利用しています。

[20]最近の作業は、CNNを使用してビデオの複数のフレームから特徴表現を取得し、次にRNNを使用してそれらの間の相互作用を学習することです。時間プーリング層は循環層の後に続き、順序の相互依存性をキャプチャすることを目的としています(プールは最大プールまたは平均プールの場合があります)。これらのレイヤーは、特徴抽出器に共同でトレーニングされます。ただし、最大プールまたは平均プールに依存することは十分に堅牢ではない可能性があります。最大プールは1つのタイムステップでシーケンス全体の最もアクティブな機能マッピングのみを使用するため、平均プールはすべてのタイムステップでの平均を表し、無効な機能除外することはできません。影響。
したがって、注意メカニズムを導入することで、このギャップを埋めたいと思います。
注意ダファはいいです!

モデルアーキテクチャ

1.空間プーリングレイヤー(空間プーリングレイヤー)

ここに画像の説明を挿入このレイヤーの設計:
1)各画像のマルチスケールエリアパッチを生成し、それをRNN /アテンションプーリングレイヤーに送信できます
。2)モデルを任意の解像度/長さの画像シーケンスに対して堅牢にします。

図に示すように:
3層CNN畳み込みニューラルネットワークのパラメーターテーブル

3層のCNN畳み込みネットワーク(なぜ3であるか)を通過した後、SPP層(空間ピラミッドプーリング)によって取得された特徴マップは、画像レベルの表現を取得します。SPPレイヤーには、多層空間フィーチャを生成するための多層空間コンテナがあり、これらのフィーチャは最終的に固定長フィーチャ(歩行者の位置やマルチスケール空間情報を含む)に融合されます。これは、注意空間プーリングメカニズムでもあります。それぞれから始めることができますフレームの選択の理由。
数式の説明は戦いたくありません、ただ絵に行ってください:
ここに画像の説明を挿入
ここに画像の説明を挿入

2.気配りのある時間的プーリングレイヤー

再帰レイヤーは隠された時間情報をキャプチャできますが、あまり変更しないと、冗長なあいまいな背景や衣服の情報を吸収します。(彼はできないので、私が提案しようとしていることは価値があり、合理的です)追加されたアテンションタイムプーリングレイヤーは、入力画像とターゲット画像の間の接続を増やし、入力変数IP I_ {P}を許可しますPターゲット変数vgv_ {g}の特性に直接影響しますvグラム
ここに画像の説明を挿入強制波は説明二つRNNネットワーク二つ注目マトリクスの出力の各行の後に、それぞれ、歩行者の入力位置及び固定サイズで得られるマルチスケール空間情報の前面を含むことを特徴とします行列は元の画像を表しますi番目のタイムステップ。
2つの行列とパラメータ行列が乗算され、次に活性化関数が融合行列Aを取得するために使用されます。Aの各行の最大プーリングは、プローブシーケンスのi番目のフレームの重要度スコアとの最大プーリングを取得します。 Aの各列は、ギャラリーシーケンスの重要度スコアのj番目のフレームを取得します。
最後に、2つのベクトルの損失関数が計算され、マトリックスの内積が取得されて、最終的な注意ベクトルが取得されます。次に、ツインネットワークを介して2つの間の距離を計算します。
数式の貼り付け:
ここに画像の説明を挿入
ここに画像の説明を挿入ここに画像の説明を挿入

参照

参考文献
[1] D。Bahdanau、K。Cho、およびY.Bengio。整列と翻訳を共同で学習することによるニューラル機械翻訳。CoRR、abs / 1409.0473、2014年。2、3
[2] A. Barhillel、T。Hertz、N。Shental、およびD.Weinshall。等価制約からマハラノビス距離を学習する。JMLR、ページ937–965、2005。2
[3] Y. Cheng、LM Brown、Q。Fan、RS Feris、S。Pankanti、およびT.Zhang。Riskwheel:監視イベント検出のためのインタラクティブな視覚分析。IEEE International Conference on Multimedia and Expo、ICME 2014、中国、成都、2014年7月14〜18日、2014年1〜6ページ。2
[4] Y. Cheng、Q。Fan、S。Pankanti、およびA. Choudhary 。ビデオイベント検出のための時間シーケンスモデリング。コンピュータビジョンとパターン認識に関するIEEE会議(CVPR)、2014年6月。2
[5] CN dos Santos、M。Tan、B。Xiang、およびB.Zhou。注意深いプーリングネットワーク。CoRR、abs / 1602.03609、2016年。2、3、4
[6] M. Farenzena、L。Bazzani、A。Perina、V。Murino、およびM. クリスタニ。局所特徴の対称性駆動型蓄積による人の再識別。In:IEEE CVPR、pages 2360–2367、2010。2
[7] K. He、X。Zhang、S。Ren、およびJ.Sun 視覚認識のための深い畳み込みネットワークにおける空間ピラミッドプーリング。CoRR、abs / 1406.4729、2014年。3
[8] M. Hirzer、C。Beleznai、PM Roth、およびH.Bischof。記述的および識別的分類による個人の再識別。画像解析に関するスカンジナビア会議、91〜102ページ、2011年。5、6
[9] S. Karanam、Y。Li、およびR.Radke。識別的に訓練された視点不変辞書による人の再識別。In:IEEE ICCV、pages 4516–4524、2015。7
[10] S. Karanam、Y。Li、およびR.Radke。スパースre-id:個人の再識別のためにスパース性をブロックします。In:IEEE CVPR Workshops、pages 33–40、2015。7、8
[11] I. Kviatkovsky、A。Adam、およびE.Rivlin。人の再識別のための色の不変量。IEEE TPAMI、35(7):1622–1634、2013。1、2
[12] Y. Li、Z。Wu、S。Karanam、およびR.Radke。適応フィッシャー判別分析を使用したマルチショット人間再識別。BMVC、2015年。6、7 [13] Z. Li、S。Chang、F。Liang、TS Huang、L。Cao、およびJRSmith。個人検証のためのローカル適応型意思決定機能の学習。:IEEE CVPR、3610〜3617ページ、2013.2
[14] S。リャオとSZリー。人の再識別のための効率的なpsd制約付き非対称学習。In:IEEE ICCV、pages 3685–3693、2015。1、2
[15] C. Liu、S。Gong、およびCCLoy 個人の再識別:どの機能が重要ですか?In:IEEE ICCV、pages 391–401、2012。1、2
[16] H. Liu、J。Feng、M。Qi、J。Jiang、およびS.Yan 個人の再識別のためのエンドツーエンドの比較注意ネットワーク。CoRR、abs / 1606.04404、2016年。3
[17] K. Liu、B。Ma、W。Zhang、およびR.Huang ビデオベースの歩行者再識別のための時空間的外観表現。:IEEE CVPR、3810〜3818、2015ページ。6
[18] BDルーカスとT.カナデ。立体視への応用を伴う反復画像レジストレーション技術。IJCAI、ページ674–679、1981年。6
[19] B. Ma、Y。Su、およびF.Jurie。人の再識別のためにフィッシャーベクターによってエンコードされたローカル記述子。:IEEE ICCV、ページ413–422、2012年。1、2
[20] N. Mclaughlin、JM Rincon、およびP.Miller ビデオベースの個人再識別のための反復畳み込みネットワーク。In:IEEE CVPR、ページ1325〜1334、2016年。1、3、5、6、7
[21] S. Paisitkriangkrai、C。Shen、およびAVDHengel。メトリックアンサンブルを使用して、個人の再識別をランク付けする方法を学びます。In:IEEE CVPR、ページ1846–1855、2015年。1、2
[22] DG S、S。Brennan、およびH.Tao 認識、再取得、追跡のための外観モデルの評価。PETS、3、2007年。6
[23] S. Sharma、R。Kiros、およびR.Salakhutdinov。視覚的注意を使用した行動認識。CoRR、abs / 1511.04119、2015.3
[24] A. Subramaniam、M。Chatterjee、およびA.Mittal。人の再識別のための不正確なマッチングを備えたディープニューラルネットワーク。DD Lee、M。Sugiyama、UV Luxburg、I。Guyon、およびR. Garnettの編集者、Advances in NIPS、2667〜2675ページ。Curran Associates、Inc.、2016年。1
[25] RR Varior、B。Shuai、J。Lu、D。Xu、およびG.Wang。人間の再識別のためのシャムの長期短期記憶アーキテクチャ。ECCV、135〜153ページ、2016年。1
[26] J. Wang、Y。Cheng 、およびR. SchmidtFeris。歩き、学ぶ:自己中心的なビデオとコンテキストデータから学習する顔の属性表現。2016年6月のIEEEConference on Computer Vision and Pattern Recognition(CVPR)で。8
[27] T. Wang、S。Gong、X。Zhu、およびS.Wang ビデオランキングによる個人の再識別。ECCV、688〜703ページ、2014年。2、5、6
[28] X. Wang、G。Doretto、T。Sebastian、J。Rittscher、およびP.Tu。形状と外観のコンテキストモデリング。In:IEEE ICCV、pages 1–8、2007。2
[29] KQWeinbergerおよびLKSaul マージンが大きい最近傍分類の距離メトリック学習。Journal of Machine Learning Research、207〜244ページ、2009年。2
[30] F. Xiong、M。Gou、O。Camps、およびM.Sznaier。カーネルベースのメトリック学習方法を使用した個人の再識別。ECCV、2014年1〜16ページ。1、2
[31] K. Xu、J。Ba、R。Kiros、K。Cho、AC Courville、R。Salakhutdinov、RS Zemel、およびY.Bengio。見せ、出席し、伝える:視覚的注意を伴うニューラル画像キャプションの生成。ICML、2048〜2057ページ、2015年。2、3
[32] Y. Yan、B。Ni、Z。Song、C。Ma、Y。Yan、およびX.Yang。繰り返しの特徴集約による個人の再識別。ECCV、ページ701–716、2016年。1、3、6、7
[33] D. Yi、Z。Lei、S。Liao、およびSZLi 人の再識別のための詳細なメトリック学習。In:IEEE CVPR、24〜39ページ、2014年。1、3
[34] W. Yin、H。Schutze、B。Xiang、およびB.Zhou ABCNN:¨文のペアをモデル化するための注意ベースの畳み込みニューラルネットワーク。TACL、4:259–272、2016年。2、3、4
[35] J. You、A。Wu、X。Li、およびW.Zheng トッププッシュビデオベースの人の再識別。In:IEEE CVPR、pages 1345–1253、2016。2
[36] Z. Zhang、Y。chen、およびV.Saligrama グループメンバーシップの予測。:IEEE ICCV、3916〜3924ページ、2015年。1、2
[37] R. Zhao、W。Ouyang、およびX.Wang。顕著性マッチングによる個人の再識別。:IEEE ICCV、2528〜2535、2013ページ。1、2
[38] R. Zhao、W。Ouyang、およびX.Wang。人の再識別のための中間レベルのフィルターの学習。In:IEEE CVPR、144〜151ページ、2014年。1、2
[39] L. Zheng、Z。Bie、Y。Sun、J。Wang、C。Su、S。Wang、およびQ.Tian 火星:大規模な個人の再識別のためのビデオベンチマーク。ECCV、ページ868–884、2016年。5、7
[40] L. Zheng、L。Shen、L。Tian、S。Wang、J。Wang、J。Bu、およびQ.Tian スケーラブルな個人の再識別:ベンチマーク。In:IEEE ICCV、pages 1116–1124、2015。2
[41] WS Zheng、S。Gong、およびT.Xiang 相対距離比較による再識別。IEEE TPAMI、35(3):653–668、2013。

おすすめ

転載: blog.csdn.net/qq_37747189/article/details/109982706