声音场景分类问题探讨

如果按照上一篇的想法来做的话,我估计效果不好。

策略:提取视频时长所有音频,特征提取后进入VGG网络,然后将VGG features avg,这样特征如果不明显的话就可能在avg后直接消失了,这种影响还是很大的。我估计最后可能会完全趋于白噪声,这不是扯淡吗?

话不多说,先提取音频文件再说,挨个听真的费劲啊,卧槽,就是怕有脏数据。

先拿抖音干净的数据来玩,主要是因为抖音的视频数据是我挨个下载的,并且声音都有特别之处,没有啥特别的就没分为1类,另有其他非1视频或者啥都有的视频作为other/用来测试看看能不能挑出来1类的视频。

上面其实涉及到一个问题:维度不同如何做相似度???这是动态规划的问题??

细节问题记录:我输入VGG模型的时长是28秒,而且我还特地取整了,这特么得到的结果还是batch还是29,卧槽,这是为啥子

一脸懵逼。经查发现最后一个batch的数值基本上全是相同的,因此去掉。

做过avg后特征基本上全被湮灭了,没有特征了。卧槽,如图下,0的部分或多或少有1中的,但不是全部,然而结果很差。

所以做avg到底有没有依据???我觉得还是原始的做max比较好,这样特征可能会显现。

因为抖音最后3秒可能有自带的“抖音”声音,所以取倒数[-8:-3]的5秒数据,然后max,结果仍旧意料之中。很差

所以我感觉这个所谓的高层特征纯属扯淡。

场景分类根本不行,所以依旧用传统的场景分类办法试试吧

【为啥用抖音的数据?很显然,其声音很显然的特征,任何人都能感觉到。如果抖音的数据都做不成,其他差得数据更难做了】

下班,票还没买到啊。卧槽

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像视频深度-学习群

发布了206 篇原创文章 · 获赞 188 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/SPESEG/article/details/104006642