NeXt VLAD多模态视频分类

NetVLAD最初是用于位置识别中聚合空间表达,发现比常规的时间模型(LSTM/GRU)用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高,基于这种特征的大的分类模型需要几百百万的参数。例如,一个Net VLAD网络有128个聚类,特征2048维,那么作为向量就是262144维。后面的全连接层是2048维度的输出,那么将有537M的参数。这种低效的参数将使得模型很难优化,且容易过拟合。

为了解决上述问题,受ResNeXt启发,开发了新的网络结构NeXt VLAD。与NetVLAD不同的是,输入的特征在聚合及编码之前用attention分解成一组相对低纬度的向量。潜在的假设是一个视频帧可能有多个目标,在编码之前分解成帧级特征对模型产生更简单的视频表达是有益的。NeXtVLAD模型收敛更快,且能阻止过拟合。

下面是NeXt VLAD结构图:

输入xi向量先经过线性FC全连接层扩展成λN维度,λ设定为2,波浪表示reshape操作,从(M,λN)到(M,G,λN/G)

其中的G是群组数。

[具体做法可以参考阿里优酷的做法]

 

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像视频深度-学习群

 

发布了226 篇原创文章 · 获赞 214 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/SPESEG/article/details/104861895