【论文导读】SoundNet: Learning Sound Representations from Unlabeled Video

论文题目：SoundNet: Learning Sound Representations from Unlabeled Video

作者：Yusuf Aytar, Carl Vondrick, Antonio Torralba

发表：29th Conference on Neural Information Processing Systems (NIPS 2016)

论文链接：https://arxiv.org/pdf/1610.09001.pdf

开源地址：https://github.com/cvondrick/soundnet

【摘要】

通过利用收集的大量未标记声音数据，我们学习了丰富的自然声音表征。使用两百万未标记的视频，我们利用时间和声音的自然同步来学习声学表征。未标记视频的优势是在经济有限情况下也能获得大规模的、包含有用信号的数据。我们提出一种 student-teacher 训练流程，使用未标记视频作为桥梁，能将来自视觉识别模型的具有判决信息的知识迁移到声音。在声学场景/目标分类基准上，我们的声音表征对前沿结果有了很大的改进。可视化数据表明，即使在没有 ground truth 标记的情况下训练，一些高层次语义也可在该声音网络中自动生成。

【主要贡献】

（1）大规模无标签数据集：从Flickr收集了200w+的视频数据，时长1 year+；

（2）首次提出视觉和声音联合训练，学习丰富的声音表征。

【文章理解】

环境声音识别任务基本的做法是提取声音特征或者直接使用声音的时间序列输入到神经网络中进行监督训练，从而得到分类模型用于未知数据的预测。但是目前已公开的有标签的环境声音数据集都很小，使用小数据集训练会很容易发生过拟合的现象，因此作者提出使用大规模无标签视频数据进行学习丰富的声音表征。具体做法如下，

上图表示了SoundNet的网络结构。首先，无标签视频数据集分割成两部分，一部分为音频（时间序列），一部分为RGB帧（视觉图像）。视觉识别网络采用在ImageNet和Places两个大型图像数据集上的预训练VGG模型。ImageNet和Places都是图像识别领域的大型数据集，其中Imagenet是图像目标分类数据集，Places是图像场景分类数据集。将从视频中分割出来的RGB帧输入到预训练的VGG模型中，得到的输出结果作为声音识别网络的监督信息。声音识别网络采用8层的全卷积结构，使用从视频中提取出的声音时间序列作为网络的输入，损失函数采用KL-divergence。

整个视觉声音联合训练过程很容易理解，是一个自监督的训练过程。预训练的VGG网络参数是不变的，提取出的RGB帧在VGG网络的输出结果作为声音识别网络的监督信息，可以理解为声音样本的“伪标签”。对于声音识别网络，它的输入是声音的时间序列，输出是上面提到的“伪标签”，训练过程中声音识别网络参数会迭代更新。

原文地址：https://blog.csdn.net/zzc15806/article/details/80669883

作者：zzc15806

【论文导读】SoundNet: Learning Sound Representations from Unlabeled Video

猜你喜欢