论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification - 代码天地

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification

其他 2019-12-07 15:50:47 阅读次数: 0

Introduction

（1）Motivation：

① 现实场景中，给所有视频进行标记是一项繁琐和高成本的工作，而且随着监控相机的记录，视频信息会快速增多，因此需要采用半监督学习的方式，只对一部分的视频进行标记.

② 不同的相机有着不同的拍摄条件（如设备质量、图片尺寸等等），不同设备间的差异影响匹配的性能.

（2）Contribution：

① 提出一个半监督视频行人重识别方法(semi-supervised video-based person re-id approach).

② 设计了一个半监督字典学习模型(semi-supervised cross-view projection-based dictionary learning, SCPDL)，学习特征投影矩阵(降低视频内部的变化)和字典矩阵(降低视频之间的变化).

③ 采用iLIS-VID和PRID2011数据集验证方法.

The proposed approach

（1）问题定义：

X = [X_L, X_U]：相机1中的视频，

Y = [Y_L, Y_U]：相机2中的视频，

其中 X_L(p*n1)、Y_L(p*n3) 为标记的训练视频，X_U(p*n₂)、Y_U(p*n₄) 为未标记的训练视频，n₁、n₂、n₃、n₄ 为视频中包含的样本数，p 为样本的维数.

P₁(p*q)、P₂(p*q)：相机1和相机2的特征投影矩阵，

其中 q 为投影特征的维数.

D₁(q*m)、D₂(q*m)：相机1和相机2的字典矩阵，

其中 m 为字典的原子数量.

A_L、A_U、B_L、B_U：X_L、X_U、Y_L、Y_U 经过字典 D₁、D₂后的编码（每个视频的特征向量转为了一个编码矩阵，如 A_Lⁱ）.

问题定义如下：

其中 α、β、λ 为平衡因子，d_1,k (d_2,k) 定义为 D₁(D₂) 的第 k 个原子.

具体如下：

f(X, Y, D₁, P₁, D₂, P₂) 为学习矩阵的保真度项(fidelity term)：

g(X, Y, P₁, P₂) 为视频聚合项(video congregating term)：

其中 N_x 和 N_y 分别为 X 和 Y 中行人视频的数量，n^x_i 和 n^y_i 分别为 X 和 Y 中第 i 个视频的样本数量，m^x_i 和 n^y_i 为 X 和 Y 中第 i 个视频所有样本的中心：

d(A_L, B_L) 为视频区分度项(video discriminant term)，希望的结果是匹配项距离更小，不匹配项距离更大：

其中 γ 为平衡因子，S 是匹配成功的视频对，D 是不匹配的视频对，距离计算公式：

r(P₁, P₂, A_L, B_L, A_U, B_U) 为正则化项(regularization term)：

（2）方法概要：

（3）优化算法：

① 初始化：

通过优化下面的两个公式，对投影矩阵 P₁ 和 P₂ 进行初始化，并通过特征分解的方式得到解(特征分解推导参考：【传送门】)：

字典矩阵 D₁ 和 D₂ 采用随机生成的方法.

通过优化下面的四个公式，对 A_L、A_U、B_L、B_U 进行初始化，通过岭回归的方法进行求解（岭回归参考：【传送门】）：

求解结果：

② 固定D₁、D₂、P₁、P₂，更新字典编码 A_L、B_L、A_U、B_U：

求解过程为对每一个视频 A_Lⁱ 依次求解，先对 A_L 进行求解（B_L 类似），对下式进行求导得到解：

同理，对 A_U、B_U 进行更新.

③ 固定 A_L、B_L、A_U、B_U、D₁、D₂，更新 P₁、P₂：

通过求导得出解：

其中：

其中：

④ 固定 A_L、B_L、A_U、B_U、P₁、P₂，更新 D₁、D₂：

使用ADMM算法进行求解：

引入变量 S：

先对 D₁ 进行求解（D₂ 同理可得）：

⑤ 算法总结：

（4）识别过程：

通过上述内容，已经学习到了投影矩阵(P₁, P₂)、字典矩阵(D₁, D₂).

从相机1中得到待测视频的特征为 Xi，从相机2中得到视频特征库 Z = {Z₁, ..., Z_j, ..., Z_n}.

识别过程：

① 计算待测视频的字典编码 A_i：

② 计算视频库所有视频的字典编码 B_j (j = 1, ...,n)：

③ 计算 A_i 和 B_j (j = 1, ..., n) 的距离，并挑选出距离最近的匹配视频.

Experimental Results

（1）实验设置：

① 数据集：iLIDS-VID、PRID2011

参数(α、β等)训练阶段：将标记后的数据集划分，采用3折交叉验证法(分成3份，前2份作为训练集，第3份作为测试集，循环3次取平均测试结果)

评估训练阶段：总体数据集划分为一半标记的数据集，一半未标记的数据集.

② 对比方法：DVR、Salience+DVR、MS-Colour&LBP+DVR、STFV3D、STFV3D+KISSME、TDL、SI²DL、RCN.

③ 参数设置：对于参数 α、β、γ、λ、q、m，采用学习曲线选取最佳的参数.

最终的设置为：对于iLIDS-VID， α = 6、β = 3、γ = 0.05、λ = 0.03、q = 300、m = 220；对于PRID2011，α = 5、β = 4、γ = 0.06、λ = 0.05、q = 260、m = 240.

（2）实验结果：

① 在iLIDS-VID上的结果：

② 在PRID2011上的结果：

在rank-1阶段SCPDL方法比SI²DL差的可能原因： SCPDL是半监督学习的方法，只能使用一半的带标签数据进行训练，当相同数量的带标签数据时，性能将会更好.

猜你喜欢

转载自www.cnblogs.com/orangecyh/p/11977573.html

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)