前書き
(1)動機:
CNNを抽出することができない画像シーケンスの特性と電流の関係、RNNの詳細はまた、歩行などの欠如抽出特定の情報について、初期ビデオシーケンスのフレームを無視し、ラベル情報(???)の考慮のシャムトリプレット損失と損失がありません。
(2)の貢献:
関節機能のシャム、ソフトマックス損失と組み合わさCNNとRNNフュージョン(CRF)と呼ばれる新しい枠組みエンドツーエンドネットワークを提案しました。身体と身体の部分の特徴は表現でより多くの差別を取得し、鉄道模型ました。
方法
(1)フレーム:
(2)入力:
入力は二つの部分、元の画像情報、オプティカルフロー情報(例えば、歩行者の歩行、より明確操作)からなります。
(3)CNN層:
この層は、同じ参照CNNを使用しています、詳細はを参照してください[ 紙読書ノート(X)[CVPR2016]:再発畳み込みネットワークビデオベースのため人の再同定Fiのカチオン]
畳み込み層(カーネルサイズ* 5である)、最大細胞層、RELU層:畳み込みは三つのモジュールであって、各モジュールから構成されています。:入力シーケンスは以下のように定義されている場合= 16 T、CNN層として定義することができます。
前記のように表さ得。
(4)時間層をプールしました。
プールされた平均操作を使用して、次のように定義されます
(5)RNN層:
次のようにノードが計算されます。
時間が層をプールされました:
(6)融合時間的特性:
初期のフレームのRNNより怠慢ので、必要性が失われた情報を補うために、次のようにCNNが、RNNは二回結合出力は、計算されます。
(7)多層損失:
損失関数は、シャムソフトマックス損失と損失が含まれています。
(8)ローカル/グローバル機能の融合:
上半分と下半分に歩行者の体は、特徴が抽出され、全体的な統合が行われます。
実験
(1)実験のセットアップは次のとおりです。
① 数据集设置:PRID-2011、iLIDS-VID、MARS;
② 参数设置:epochs > 10,视频序列长度 = 16,W1 = W2 = W3 = 1.
(2)实验结果: