NeXtVLAD 飞酱预训练模型测试

hi,dear 大佬:

找遍了全网,只有飞酱提供了预训练的模型,请使用_final版本的,下面我将用inceptionV3提取图像特征然后经过该模型得到concat之前聚类之后的特征,该特征我将用做embedding,别问我有啥意义,我哪知道,inceptionV3不也是这么玩的吗??

【意义很清楚,就是将泛特征经过聚类得到新的特征,剔除了冗余的特征及微小的弱特征】

另外我也会将音频vgg后的特征经过该模型,得到同样结点的输出,那么有一个问题,飞酱模型某一层的输出能指定吗?

关于concat之前的特征是什么?如下图:博文

小领导的需求也不明确,让我尽可能的搞那么多特征,尽管封面图特征这个idea是我提出来的,但我没想到有这么多坑啊??

分类?检测?SSD,YoLoV3?能检测到的东西有什么用吗?我觉得用上面的模型结果就是泛化的特征,这样的特征描述不清楚,但就是隐含的特征。这就是我的embedding,你要是还有啥要说的,或者自认为牛逼,你来做好了,你不是也说了,老子做不了让别人做,你现在就让别人做吧【我会尽可能注意自己的情绪,但你这样说了我都没怼回去,已经给你面子了】

于是我又安装了一次飞浆飞浆的代码有实际测试过吗???我估计没有基本的小错误都没有改

最后发现final模型不能用,真是尴尬了。试试能不能直接测试video,

现在的问题是yt8m的数据下载脚本拿不到,而至于这个谷歌页面有没有脚本都不知道,但挨个下载肯定到狗年了——tfrecord太多了。既然如此,只有一个方法了,看代码,推测它读取的list是什么玩意。

按照百度飞浆大佬的提示,经过我一番折腾,终于能搞懂了inference

但得到的原始维度是4096D,这个就有点可怕了。而用作分类的低级特征只有30D,而且效果也算可以,这就蛋疼了。

暂且不管,下面看看随意生成的数据测试效果,时长啥的。100次推断用了14s,还是可以的吧。

鉴于维度高的问题,下面采用PCA降维,问题是每条音频都是4096,如果降维的话要有很多条累积才能PCA,单条降维的话因为没有固定参数,所以无法实现。随机测了下GTZABN的数据,128D有98%,其他数据没有测试。

心累,服务器安装个librosa都不行了,卧槽。。。。

运维同事说:安装时缺个依赖包(pytest-runner),安装完就可以了

拜拜。煮饭还是煮面啊?哎,人生的艰难在于事事艰难,处处艰难,你根本体会不到。

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像视频深度学习群

发布了245 篇原创文章 · 获赞 242 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/SPESEG/article/details/105244463