ビデオベースの人の再同定Fiのカチオンのためのディープ時空間フュージョン・ネットワーク:CVPR2017 []紙のメモ(21)を読みます

前書き

(1)動機:

CNNを抽出することができない画像シーケンスの特性と電流の関係、RNNの詳細はまた、歩行などの欠如抽出特定の情報について、初期ビデオシーケンスのフレームを無視し、ラベル情報(???)の考慮のシャムトリプレット損失と損失がありません。

 

(2)の貢献:

関節機能のシャム、ソフトマックス損失と組み合わさCNNとRNNフュージョン(CRF)と呼ばれる新しい枠組みエンドツーエンドネットワークを提案しました。身体と身体の部分の特徴は表現でより多くの差別を取得し、鉄道模型ました。

 

方法

(1)フレーム:

 

(2)入力:

入力は二つの部分、元の画像情報、オプティカルフロー情報(例えば、歩行者の歩行、より明確操作)からなります。

 

(3)CNN層:

この層は、同じ参照CNNを使用しています、詳細はを参照してください[ 紙読書ノート(X)[CVPR2016]:再発畳み込みネットワークビデオベースのため人の再同定Fiのカチオン]

畳み込み層(カーネルサイズ* 5である)、最大細胞層、RELU層:畳み込みは三つのモジュールであって、各モジュールから構成されています。:入力シーケンスは以下のように定義されている場合= 16 T、CNN層として定義することができます。

前記のように表さ得。

 

(4)時間層をプールしました。

プールされた平均操作を使用して、次のように定義されます

 

(5)RNN層:

次のようにノードが計算されます。

時間が層をプールされました:

 

(6)融合時間的特性:

初期のフレームのRNNより怠慢ので、必要性が失われた情報を補うために、次のようにCNNが、RNNは二回結合出力は、計算されます。

 

(7)多層損失:

損失関数は、シャムソフトマックス損失と損失が含まれています。

 

(8)ローカル/グローバル機能の融合:

上半分と下半分に歩行者の体は、特徴が抽出され、全体的な統合が行われます。

 

 

実験

(1)実験のセットアップは次のとおりです。

① 数据集设置:PRID-2011、iLIDS-VID、MARS;

② 参数设置:epochs > 10,视频序列长度 = 16,W1 = W2 = W3 = 1.

 

(2)实验结果:

 

おすすめ

転載: www.cnblogs.com/orangecyh/p/12304250.html