NetVLAD最初是用于位置识别中聚合空间表达,发现比常规的时间模型(LSTM/GRU)用于聚合视觉和听觉特征任务更有效、更快。Net VLAD主要的一个缺点是特征维度高,基于这种特征的大的分类模型需要几百百万的参数。例如,一个Net VLAD网络有128个聚类,特征2048维,那么作为向量就是262144维。后面的全连接层是2048维度的输出,那么将有537M的参数。这种低效的参数将使得模型很难优化,且容易过拟合。
为了解决上述问题,受ResNeXt启发,开发了新的网络结构NeXt VLAD。与NetVLAD不同的是,输入的特征在聚合及编码之前用attention分解成一组相对低纬度的向量。潜在的假设是一个视频帧可能有多个目标,在编码之前分解成帧级特征对模型产生更简单的视频表达是有益的。NeXtVLAD模型收敛更快,且能阻止过拟合。
下面是NeXt VLAD结构图:
输入xi向量先经过线性FC全连接层扩展成λN维度,λ设定为2,波浪表示reshape操作,从(M,λN)到(M,G,λN/G)
其中的G是群组数。
[具体做法可以参考阿里优酷的做法]
另外有相关问题可以加入QQ群讨论,不设微信群
QQ群:868373192
语音图像视频深度-学习群