视频高层语义特征提取问题

视频高层语义其实也是针对帧来做的，因为帧之间的连续性或者连贯性目前的确有难度，这种连续性就是指行为或者动作的识别，空间上的概念。很多都是时间上的概念，目前视频理解就是如此，复杂的动作，比如SomethingV2中就有很多，根据我上面关于TSM视频的测试可知，抽帧组合的方式其实还是满足时间上的概念的，比如这个博文中提及的帧数选取的问题，无论怎样两个clip序列都是满足时间上的先后顺序的，

测试的是

TSM ResNet50

16 * 2clip

63.1

[ 2  5  9 12 15 18 22 25 28 31 35 38 41 44 48 51  1  4  7 10 14 17 20 23
 27 30 33 36 40 43 46 49]

每个clip均是16帧，另外又做了3倍的crops-裁剪，就是图像的一些基本操作，所以总的来说是16*6个帧。

说实话，到目前为止，我还是懵逼的状态，除了paper中所提及的shift之外，我没发现有任何的创新之处，在我看来就是个resnet50，TSM基于TSN做的，TSN采用的resnet50的预训练模型，当然也有其他的模型可以尝试。

文中说需要平衡空间和时间特征的学习，将输入X经过shift后再conv与X融合进行预测，这是常见的Residual结构。

总体结构如下：来源于TSMpaper

然而，我不觉得这种特征提取的方式会比仅仅提取帧特征的方法要优秀，因为最终我并不是为了做视频行为识别，而是为了做视频之间的相似性，而后者并不太在乎这种时间、空间上的信息，甚至完全缺失也可，但如果考虑其中的行为相似性，则空间信息可能会需要。

【上述言论仅供参考，纯属胡诌】

下面寡人进入正题，inceptionV3特征提取，预训练的模型已经是1000类的了，将top层去掉仅仅提取帧高层语义。

最后的输出是2048维度

global_average_pooling2d_1 (Glo (None, 2048)         0           mixed10[0][0]

输入是固定的

input_1 (InputLayer)            (None, 299, 299, 3)  0

因此这个只需送入模型即可得到，不费劲。

此2048暂不做PCA，先来做个图像之间的测度，关于测度问题，请查看我之前的博文。【虽说并未完善，但不妨看看】

这里采用一个余弦相似度，关于此概念，百度百科中已有明确概念。手写一个也不费劲

我哥的余弦相似度是

这个是自己测的，不知道准不准，既然如此，

换个我的图片？？

这个。。。所谓的高层语义就是这个吗？？？

我有点不敢苟同啊。

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192

语音图像深度-学习群

各位新年好，感谢对我一年的关注、包容与支持。

多谢大家，我还是少年。

下班。

SpeechImageKing

发布了189 篇原创文章 · 获赞 170 · 访问量 2万+

私信关注

视频高层语义特征提取问题

猜你喜欢