NeXtVLAD 飞酱预训练模型测试

hi，dear 大佬：

找遍了全网，只有飞酱提供了预训练的模型，请使用_final版本的，下面我将用inceptionV3提取图像特征然后经过该模型得到concat之前聚类之后的特征，该特征我将用做embedding，别问我有啥意义，我哪知道，inceptionV3不也是这么玩的吗？？

【意义很清楚，就是将泛特征经过聚类得到新的特征，剔除了冗余的特征及微小的弱特征】

另外我也会将音频vgg后的特征经过该模型，得到同样结点的输出，那么有一个问题，飞酱模型某一层的输出能指定吗？

关于concat之前的特征是什么？如下图：博文

小领导的需求也不明确，让我尽可能的搞那么多特征，尽管封面图特征这个idea是我提出来的，但我没想到有这么多坑啊？？

分类？检测？SSD，YoLoV3？能检测到的东西有什么用吗？我觉得用上面的模型结果就是泛化的特征，这样的特征描述不清楚，但就是隐含的特征。这就是我的embedding，你要是还有啥要说的，或者自认为牛逼，你来做好了，你不是也说了，老子做不了让别人做，你现在就让别人做吧【我会尽可能注意自己的情绪，但你这样说了我都没怼回去，已经给你面子了】

于是我又安装了一次飞浆，飞浆的代码有实际测试过吗？？？我估计没有。基本的小错误都没有改。

最后发现final模型不能用，真是尴尬了。试试能不能直接测试video，

现在的问题是yt8m的数据下载脚本拿不到，而至于这个谷歌页面有没有脚本都不知道，但挨个下载肯定到狗年了——tfrecord太多了。既然如此，只有一个方法了，看代码，推测它读取的list是什么玩意。

按照百度飞浆大佬的提示，经过我一番折腾，终于能搞懂了inference。

但得到的原始维度是4096D，这个就有点可怕了。而用作分类的低级特征只有30D，而且效果也算可以，这就蛋疼了。

暂且不管，下面看看随意生成的数据测试效果，时长啥的。100次推断用了14s，还是可以的吧。

鉴于维度高的问题，下面采用PCA降维，问题是每条音频都是4096，如果降维的话要有很多条累积才能PCA，单条降维的话因为没有固定参数，所以无法实现。随机测了下GTZABN的数据，128D有98%，其他数据没有测试。

心累，服务器安装个librosa都不行了，卧槽。。。。

运维同事说：安装时缺个依赖包（pytest-runner），安装完就可以了

拜拜。煮饭还是煮面啊？哎，人生的艰难在于事事艰难，处处艰难，你根本体会不到。

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192