【论文导读】Learning to Localize Sound Source in Visual Scenes

论文题目:Learning to Localize Sound Source in Visual Scenes

作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon

发表:CVPR 2018

论文链接:https://arxiv.org/pdf/1803.03849.pdf


【摘要】

在日常生活中,视觉事件往往伴随声音的出现。我们提出这样一个问题:机器能够像人类一样仅通过观察声音和相应的视觉场景来学习视觉场景和声音之间的对应关系,并且定位声源吗?在本文中,我们提出了一种新的无监督算法来解决视觉场景中声源定位问题。提出一种双流网络能够处理每一种模式,并且使用注意力机制进行声源定位。此外,尽管我们的网络是在无监督学习框架下制定的,但它也可以扩展到一个统一的结构,通过简单的修改就可以适用于监督和半监督学习。同时,我们收集了一个新的声源数据集用于性能评估。我们实验表明,在某些情况下,无监督方法会得到错误的结果。我们表明,加入一些监督信息,错误的结果能够得到纠正,并且可以有效地定位视觉场景中的声源位置。

【主要贡献】

(1)提出了一种基于注意力机制的声源定位框架。该定位框架使用声音和视频帧的联合信息作为训练数据;

(2)提出一种统一的端到端的卷积神经网络结构,适用于无监督学习、监督学习和半监督学习;

(3)收集了一个新的声源定位数据集,包含部分标注的数据。

【文章理解】

传统的声源定位一般是通过外部设备实现的,比如麦克风阵列。本文提出了一种新颖的声源定位方法,通过声音和视频帧的联合信息来定位声音在视频帧中的位置。下图为声音定位的一个示意图,

如图所示,同一视频帧会根据不同的声源信息来定位该声源在视频中的位置,这也是我们要达到的定位效果。

文章中一共使用了三种学习方式,分别为无监督学习、监督学习和半监督学习。整个流程框架可由下图表示,


视觉网络(Visual CNN):文章中采用VGG16(丢弃全连接层)的结构进行视频帧的特征学习,得到视觉特征表示vv∈R (H ×W ×D),其中,H表示feature map的高度,W表示feature map的宽度,D为通道数。

声音网络(Sound CNN):采用8层的全卷积结构,使用全局平均池化层保证输出的声音特征信息fs维度一致。

定位模块(Localization Module):采用注意力机制的方式计算声音的空间信息和声音特征的相关性,输出定位响应α。注意力机制采用的方法是简单粗暴的內积计算方法,为了丢弃负响应部分,作者对注意力机制做了部分改进,如下,


定位响应α的计算过程如下,


因为视觉网络输出的为多通道的feature map,每一个feature map上的每一个像素点都可以代表不同的空间位置。如上图所示,一个feature map一共有H×W个像素点,假设我们要计算左上角的像素点(代表左上角这个位置)和声音特征的相关性,首先将所有通道处于该位置的点组成一个维度为D的向量vi,然后通过与声音特征h(见图2)进行內积,得到一个响应值ai。根据这种方法,依次计算该声音特征h在其余H×W个像素点的响应值,然后对所有的响应值进行soft处理,


得到一个概率分布的相应图谱α,这样就获得了声音在视频帧中的定位分布。


无监督学习:无监督学习的loss函数使用triplet loss,使用视频帧特征fv作为anchor,其相关声音特征fs+为正样本,随机选自其他视频的声音特征fs-为负样本,优化目标是使正样本尽量与anchor接近,负样本尽量与anchor远离。无监督学习虽然样本量足,但是由于训练的不可控性,存在一些误定位的结果。

半监督学习:半监督学习是在无监督学习的基础上加入了监督信息,如图2。加入监督信息后,从效果看,能够有效提升定位精度。


原文地址:https://blog.csdn.net/zzc15806/article/details/80772152

作者:zzc15806


版权声明:本文为博主原创文章,请尊重原创,转载请注明原文地址和作者信息!

猜你喜欢

转载自blog.csdn.net/zzc15806/article/details/80772152
今日推荐