概要
(1)方法:
(SI学習しながら歩行者ビデオ変化映像のうち、歩行者の同一面内のビデオとビデオとの間の距離内に提示2 DL)を。
(2)モデル:
ビデオ(イントラVedioの)距離行列:よりコンパクトなので、同一のビデオこと。
ビデオインター(内vedioの)距離行列:2が小さい距離よりも映像のマッチング映像と一致しないようになっています。
差別の学習行列を改善するためのビデオ・デザイン・トリプル(Vedioのトリプレット)、。
(3)データ収集:
iLIDS-VIDとPRID 2011画像シーケンスデータセット
入門
学習との距離学習の特徴:(1)今日のメソッドのほとんどは、主に基づいて2つのカテゴリに分け重い歩行者の画像認識(イメージベース)、です。
前記中央(中間レベルの機能)、重要な特徴(顕著性特徴)を、有意な色特性(顕著な色の特徴)を含む歩行者の画像から抽出する特徴:特性を学習します。
遠隔学習:LMNN(大きなマージン最近傍)、KISSME(シンプルで簡単なメトリックを保つ)、RDC(相対距離の比較):距離学習と効率的な行列には、マッチング精度を最大限に高めることができます。
(2)2つのビデオの再識別方法が最近提案されました。
説明を詳述各ビデオ歩行者を表すために、時間的特性(空間 - 時間)を抽出します。
最初のビデオセグメントは、いくつかのフラグメント(断片/歩行サイクル)、断片のそれぞれから抽出された時間的特徴を生成し、抽出された特徴を使用して映像を表現します。
そうビデオ再IDとはまた、(セットマッチングのセット)と一致する質問のセットとして見ることができます。
(3)難易度:
影響を受ける姿勢(POSE)、ビュー(視点)の角度、光(照明)閉塞(閉塞)だけでなく、ビデオ歩行者のうち変更が、ビデオ歩行者(フレーム)の異なるフレーム内の同じ変化があります。
同時処理のためのビデオおよびビデオ変化(インタービデオ変動)との間の上記の方法で変化なし(イントラビデオ変動)。
距離のセットに基づいて学習(セットベースの遠隔教育):方法(4)セット間の変動を減少させます
已提出的方法有:MDA(マニホールド判別分析)、SBDR(セット・ベースのランキング差別)、CDL(共分散弁別学習)、SSDML(セットツーセット距離計量学習)、LMKML(ローカライズされたマルチカーネルメトリック学習) 。
(5)動機:
①主要な既存の再IDアルゴリズムは、画像に基づいています。
②ビデオの基づいて再IDは、画像処理の集まりとして見ることができるが、遠隔学習に基づく方法の既存のセットを再IDベースのビデオおよび設計を解決するものではありません。
(6)の貢献:
①SIと呼ばれる提案2 DLの映像に基づいて再-ID方法。
②遠隔学習のセットに基づいて新しいモデルを設計。
③ビデオ(映像トリプレット)との関係の新しいモデルを設計しました。
④iLIDS-VIDとPRID 2011件のデータが評価セット。
SI 2 DL
(1)問題定義:
①訓練セット:X- = [X- 1、...、X- I、...、X- K ]
各ビデオ歩行者X- iは、N- * Pである私次元、すなわち、N-含有i番目のビデオIサンプル(試料)は、pは、Xのように定義されたi番目のビデオのj番目のサンプルの各サンプルの寸法であるのIJ。
もし、よりコンパクトなように、②は、直感的に有意映像との間の分離については、各映像内の、それを理解することができる。このリード線をビデオ距離マトリックス(メトリックイントラビデオ距離)、及びビデオマトリックスとの間の距離(インタービデオ距離メトリックに)。
③J(V、W)を定義します。
V:内ビデオ距離メトリック、仕様:* K P- 1
W:インタービデオの距離メトリック、规格:K 1 * K 2
V I:I行列Vの列目、仕様:P * 1
W I:マトリックス、サイズのI番目の列W:P * 1
F(V、X):内部結束ビデオ(集まっ用語)
G(W、V、X):ビデオアイテム間の識別(判別用語)
μ:重量バランス係数
SI 2フレームはDLである:トレーニングV及びW、上記2つの項目を低減します。
④計算F(V、X):
すべてのビデオの平均値を表すために、各ビデオ・サンプルを使用して、すなわち、i番目のビデオX- I平均です。
凝集は、計算値:Nは、すべての画像フレームのデータセットの数を表します。
式の理解:
V T(X ijの -m I)仕様行列演算:(K 1 * P)*(P * 1)= K 1 * 1
V Tは、ここでビデオ・サンプルが近い中心の周りにあったように、ベクトル長が変化し、距離行列の変化の役割を生成しました。
⑤定義トリプレット(ビデオトリプレット):
パラメータ:ビデオX- I、X- J、X- K、Mに対応するI、M J、MのK
前記X- Jは X-あるI 正しいマッチの、そしてX- Kが X-され、私が ミスマッチで、
会います
彼はX-言っI、X- J、X- Kは トリプレットでは、<I、J、K>と呼ばれます。
⑥計算G(W、V、X):| D |トリプルの数を表します。
計算差別アイテム:
どこρは、ペナルティ項は次のとおりです。
两个范式之间的差值可以理解为:正确匹配的距离和错误匹配的距离之差,期望的结果是正确匹配的距离更小,错误匹配的距离更大,也就是这个差值更小.
为什么要加这个惩罚项?个人的理解是:为了保证区分度项始终是正值.
简写 ρ = exp(- b 式/ a 式),ρ < 1. 若 a 式的值比 b 式小很多,那么 ρ 会很小,b 式会被削弱,(a式 - ρ*b式)结果为正;若 a 式的值比 b 式大很多,那么 ρ 会接近1,那么(a式 - ρ*b式)结果也为正.
⑦目标函数:
(2)SI2DL的优化:
① 由于上面的公式不是凸的,需要将问题进行转化:
其中 M1 和 M2 矩阵的元素分别为:和,其中<i,j,k>属于D.
(为什么?可能是凸优化方面的问题,还没有去学习,对这个公式的转化也不理解)
【注】Frobenius范式的计算方式:
② 确定 V、W 来更新 A、B:
初始化 V:
通过构建拉格朗日函数,并对其求导,得到结果:
其中
个人推导过程【不一定准确】:
问题转化为了特征分解问题,选取 K1 个特征向量作为 V 的初始化.
初始化W:
采用同样的方法,选取 K2 个特征向量作为 W 的初始化.
当 V 和 W 确定后,通过优化下面的公式来获得 A 和 B :
③ 确定 A、B、W 来更新 V:
当 A、B、W 确定后,优化问题转化为:
其中:
使用 ADMM算法 对上述的公式进一步转化:
首先引入变量S:
ADMM算法:
(ADMM算法这步没有理解,待查阅资料)
④ 确定 A、B、V 来更新W:
当 A、B、W 确定后,优化问题转化为:
同样使用ADMM算法把问题进一步优化,求解出 W.
⑤ SI2DL 算法总结:
(3)使用 V,W 矩阵对结果进行预测:
视频库(gallery video):Y = [Y1, ..., Yi, ..., Yn]
第 i 个视频为 Yi,规格为:p * li,其中 li 为 Yi 中的样本数量.
待测视频 Zi 的规格为:p * ni,其中 ni 为 Zi 中的样本数量.
Yi / Zi 的第 j 个样本记为 yij / zij.
识别过程:
① 计算 Zi 和 Yi 的一阶表示:
② 计算两者间的距离:
③ 在视频库中挑选出距离最近的视频,作为 Zi 的匹配结果.
实验结果
(1)实验设置:
① 对比试验:
discriminative video fragments selection and ranking (DVR)
改进版:Salience+DVR 、 MSColour&LBP+DVR
spatial-temporal fisher vector representation (STFV3D)
改进版:STFV3D+KISSME
② 参数设置:
对于iLIDS-VID数据集(K1,K2) = (2200,80),μ = 0.00005、τ1 = 0.2、τ2 = 0.2;
对于PRID数据集(K1,K2) = (2500,100),μ = 0.00005、τ1 = 0.1、τ2 = 0.1;
③ 评估设置:
数据集50%用作训练集,50%用作测试集.
测试集中第1个相机的数据用作测试组,第2个相机的数据用作视频库.
使用CMC曲线评测,CMC曲线的介绍:【传送门】
(2)在iLIDS-VID数据集上的评测结果:
该数据集含有300个行人的600个图像序列,每个行人都有来自两个相机拍摄的图像序列.
每个图像序列含有22-192帧,平均还有71帧.
(3)在PRID2011数据集上的测评结果:
Cam-A含有385个行人的图像序列,Cam-B含有749个行人的图像序列.
每个序列含有5-675帧,平均含有84帧.(低于20帧的需要被忽略)