声音场景分类问题探讨(二)

上一篇https://blog.csdn.net/SPESEG/article/details/104006642

其实有时候,不,经常是我还没有完全明白样例/demo中的流程,就开始了套用,咔咔代入一通,也有很多想当然的想法,都是错误的。

如果完全如所给样例那么简单的话,整个特征可以直接取avg,特征依旧很明显,如下:

x轴是128D特征,y是时间维度frame,由hop_size确定长度

 下图即是取avg后的图

下面比较下同一类别的avg features 是否相似?

整体来看确有相似之处,但令人生疑,为何如此相像???就怕不同类别也是这么相似,那就没法玩了。

提取Lau和Dan类别特征,先看tsne图,然后做下query看看效果如何。

PCA后30D,困惑度50

有一定的区分度,但仍有上一篇的可能:因为并没有的分类界限。

困惑度为100时

又加入Dan的一些类别mnw,伪标签为2,PCA后30D,0.86,困惑度100

0 和2本就是一类,1是Lau类别,偏安一隅,也算有点区别

由于颜色问题,将Lau设为3,其他全是Dan类别

大部分的Lau都位于红色框内,再增加点Lau的数据,如下

下面增加点我司的Lau,1000个,如图下,标记为4,【注意:以上只有Lau用的抖音的,Dan是我司的】

假若将3,4合为3,如下

我觉得也可试试增加点时长,或者直接用整个时长【不包括抖音的最后附加的声音】

个人觉得Lau的时长多了应该与Dan的不同,特征更明显,难道不是吗?拭目以待

【遇到一个问题,不知道怎么指定某个GPU,指定后也不好使,因为我想运行两个或多个脚本,各用一个GPU,之前有写过一篇,但没有深究。这里再补充下】

今天提前回去收拾东西。下班

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像视频深度-学习群

发布了207 篇原创文章 · 获赞 189 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/SPESEG/article/details/104069575