视频高层语义特征提取问题

视频高层语义其实也是针对帧来做的,因为帧之间的连续性或者连贯性目前的确有难度,这种连续性就是指行为或者动作的识别,空间上的概念。很多都是时间上的概念,目前视频理解就是如此,复杂的动作,比如SomethingV2中就有很多,根据我上面关于TSM视频的测试可知,抽帧组合的方式其实还是满足时间上的概念的,比如这个博文中提及的帧数选取的问题,无论怎样两个clip序列都是满足时间上的先后顺序的,

测试的是

TSM ResNet50 16 * 2clip 63.1
[ 2  5  9 12 15 18 22 25 28 31 35 38 41 44 48 51  1  4  7 10 14 17 20 23
 27 30 33 36 40 43 46 49]

每个clip均是16帧,另外又做了3倍的crops-裁剪,就是图像的一些基本操作,所以总的来说是16*6个帧。

说实话,到目前为止,我还是懵逼的状态,除了paper中所提及的shift之外,我没发现有任何的创新之处,在我看来就是个resnet50,TSM基于TSN做的,TSN采用的resnet50的预训练模型,当然也有其他的模型可以尝试。

文中说需要平衡空间和时间特征的学习,将输入X经过shift后再conv与X融合进行预测,这是常见的Residual结构。

总体结构如下:来源于TSMpaper

然而,我不觉得这种特征提取的方式会比仅仅提取帧特征的方法要优秀,因为最终我并不是为了做视频行为识别,而是为了做视频之间的相似性,而后者并不太在乎这种时间、空间上的信息,甚至完全缺失也可,但如果考虑其中的行为相似性,则空间信息可能会需要。

【上述言论仅供参考,纯属胡诌】

下面寡人进入正题,inceptionV3特征提取,预训练的模型已经是1000类的了,将top层去掉仅仅提取帧高层语义。

最后的输出是2048维度

global_average_pooling2d_1 (Glo (None, 2048)         0           mixed10[0][0]                

输入是固定的

input_1 (InputLayer)            (None, 299, 299, 3)  0          

因此这个只需送入模型即可得到,不费劲。

此2048暂不做PCA,先来做个图像之间的测度,关于测度问题,请查看我之前的博文。【虽说并未完善,但不妨看看】

这里采用一个余弦相似度,关于此概念,百度百科中已有明确概念。手写一个也不费劲

我哥的余弦相似度是

这个是自己测的,不知道准不准,既然如此,

换个我的图片??

这个。。。所谓的高层语义就是这个吗???

我有点不敢苟同啊。

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像深度-学习群

各位新年好,感谢对我一年的关注、包容与支持。

多谢大家,我还是少年。

下班。

发布了189 篇原创文章 · 获赞 170 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/SPESEG/article/details/103788857