TSM视频测试——中间篇二

哈喽,大家好,明天北京朝阳公园上午小明哥【就是寡人】粉丝见面会,欢迎到场,哈哈

上一篇https://blog.csdn.net/SPESEG/article/details/103732829

据我测试中发现,似乎是整个视频的帧都要进入模型,而最后的shape为一样的

torch.Size([1, 288, 224, 224])

这就不明觉厉了。难道所有不同帧的最后都是统一的??

但实际进入模型net的是

torch.Size([6, 16, 3, 224, 224])

So what's the meaning of the 6?

If I just set the frame num equal to 1,and the place will be 6 ?? the same shape ??

and torch.no_grad is similar to tf.Session ?

with torch.no_grad():

我已经将它的源码简化了,得到同样的结果,但是我想说torch的推断真的真的太慢了,我电脑CPU不行???

下一步就查看TSNDataset那个玩意,这个必须换成单个视频的图像的输入,不能再是对象了,这样很麻烦。

但其实我想说的是既然要取mean,对6取,当初又何必搞这个6呢?

难道这个6就是所谓的两倍采样???这个两倍采样为何为舍弃视频中的部分帧呢?难道没有吗?

我看一下,强行画图试试看,请不要走开哦。

从中挑了一个172305视频的图,原来共有35个图,但最后都是6*16个图,这种采样或者说是6倍采样,或者说有Compose带来的转换,但都是为了增加数据。

如图下,这就是最终进入模型的数据,最后得到一个标签,也就是说总的35个图片其中可能被交错使用了

鉴于这种情况,我如果用来提取特征是否可以降采样,每秒抽一帧然后整个视频一分钟就60帧,最终也能得到类似的图,这也算是一种特征提取方法吗??经过网络后是6*174,因为是174个类别。这种特征是否可以拿来用???孤决定可以尝试。

当然也可试试kinetics400或者600【600暂时没有训练好的模型】提取特征。

下面重要的就是TSNDataset了,且看下回分解,不要走开哦。

朝阳公园见哦。

【今天是12月30日,前天的粉丝见面会真是万人空巷,没想到看帅哥的这么多,哈哈】

TSNDataset这玩意想要真正的理解,还是要打印看一下。

下面这种写法不知道有什么用,输入为列表,这都搞个类,小题大做。

class VideoRecord(object):
    def __init__(self, row):
        self._data = row

    @property
    def path(self):
        return self._data[0]

    @property
    def num_frames(self):
        return int(self._data[1])

    @property
    def label(self):
        return int(self._data[2])

其实本来写个for循环就解决的问题,然而这里写了个对象,这样做要么是照搬别人的,要么就是装13,这种做法最令人讨厌,就是用来屏蔽小白的,然而我不怕,事无巨细,事必躬亲,身体力行。

有一个问题我实在是搞不懂,为啥选择的帧与总的帧数有关系呢???

directory:  74225 ,idx : 2
directory:  74225 ,idx : 6
directory:  74225 ,idx : 10
directory:  74225 ,idx : 14
directory:  74225 ,idx : 18
directory:  74225 ,idx : 22
directory:  74225 ,idx : 26
directory:  74225 ,idx : 30
directory:  74225 ,idx : 34
directory:  74225 ,idx : 38
directory:  74225 ,idx : 42
directory:  74225 ,idx : 46
directory:  74225 ,idx : 50
directory:  74225 ,idx : 54
directory:  74225 ,idx : 58
directory:  74225 ,idx : 62
directory:  74225 ,idx : 1
directory:  74225 ,idx : 4
directory:  74225 ,idx : 8
directory:  74225 ,idx : 12
directory:  74225 ,idx : 16
directory:  74225 ,idx : 20
directory:  74225 ,idx : 24
directory:  74225 ,idx : 28
directory:  74225 ,idx : 32
directory:  74225 ,idx : 36
directory:  74225 ,idx : 40
directory:  74225 ,idx : 44
directory:  74225 ,idx : 48
directory:  74225 ,idx : 52
directory:  74225 ,idx : 56
directory:  74225 ,idx : 60

另外一个的idx则不同,这个idx的选取与总的帧数有关,这纯属扯淡

directory:  116154 ,idx : 2
directory:  116154 ,idx : 5
directory:  116154 ,idx : 9
directory:  116154 ,idx : 12
directory:  116154 ,idx : 15
directory:  116154 ,idx : 18
directory:  116154 ,idx : 22
directory:  116154 ,idx : 25
directory:  116154 ,idx : 28
directory:  116154 ,idx : 31
directory:  116154 ,idx : 35
directory:  116154 ,idx : 38
directory:  116154 ,idx : 41
directory:  116154 ,idx : 44
directory:  116154 ,idx : 48
directory:  116154 ,idx : 51
directory:  116154 ,idx : 1
directory:  116154 ,idx : 4
directory:  116154 ,idx : 7
directory:  116154 ,idx : 10
directory:  116154 ,idx : 14
directory:  116154 ,idx : 17
directory:  116154 ,idx : 20
directory:  116154 ,idx : 23
directory:  116154 ,idx : 27
directory:  116154 ,idx : 30
directory:  116154 ,idx : 33
directory:  116154 ,idx : 36
directory:  116154 ,idx : 40
directory:  116154 ,idx : 43
directory:  116154 ,idx : 46
directory:  116154 ,idx : 49

这种错位方法有待商榷,如果不知道总的帧数咋办,也就是说不能边读边预测了?或者说读完整个视频帧才做预测???

不能人为选取帧来预测???

另外是否与视频时长有关?

且看下一篇吧,【为了阅读方便】

请来看看我吧。Please Do not Keep me Waiting.

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像深度-学习群

或者发我邮箱:

[email protected]

发布了189 篇原创文章 · 获赞 170 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/SPESEG/article/details/103734647
TSM