论文笔记 Memory Fusion Network for Multi-view Sequential Learning (AAAI2018)

这是卡内基梅隆大学与新加坡南洋理工大学在AAAI上发表的一篇利用memory network来处理序列建模的文章。

文章中的multi view其实指代可以很广泛，许多地方也叫做multi modal，对于多模态序列学习而言，模态往往存在两种形式的交互（1）模态内关联（view-specific interactions)，(2)模态间关联（cross-view interactions)，这篇文章提出了Memory Fusion Network(MFN)方法来处理这种多模态序列建模，处于对模态内与模态间的不同处理，本文可将方法划分为三个部分（1）LSTM对各自模态单独建模（2）Delta-memory Attention Network(DMAN)（3）Multi-view Gated Memory，后两者致力于处理模态间的交互。
这里写图片描述

Input:

比如对语言，视频，音频序列进行建模， $N = \left\{l,v,a\right\}$ ，the input data of the $n$ th view is denoted as: $x_n = \left\{x_n^t:t<=T,x_n^t \in R^{d_{x_n}}\right\}$ ，where $d_{x_n}$ is the input dimensionality of $n$ th view input $x_n$ .

System of LSTMs:

使用常规的LSTM, 对于每个输入 $x_n$ ，每一个step的memory表示为 $c_n= \left\{c_n^t:t<=T,c_n^t \in R^{d_{c_n}}\right\}$ ，每个step的output表示为 $h_n= \left\{h_n^t:t<=T,h_n^t \in R^{d_{c_n}}\right\}$ ，where $d_{c_n}$ denotes the dimensionality of $n$ th LSTM memory $c_n$ .

Delta-memory Attention Network

a^{[t - 1, t]} = D_{α} (c^{[t - 1, t]})

$a^{[t-1,t]} = D_\alpha(c^{[t-1,t]})$
Delta顾名思义，考虑了LSTM前后两个step，输入到DMAN的是

t - 1

$t - 1$ 与

t

$t$ 的memory拼接，其中

D_{α} : R^{2 d_{c}} \mapsto R^{2 d_{c}} ， d_{c} = \sum_{n} d_{c_{n}}

$D_\alpha: R^{2d_c}\mapsto R^{2d_c}，d_c= \sum_{n}d_{c_n}$ , 通过上式来获得attention系数，

a^{[t - 1, t]}

$a^{[t-1,t]}$ 是对于时刻

t - 1

$t-1$ 与

t

$t$ 的softmax score。
DMAN的输出定义如下

{\hat{c}}^{[t - 1, t]} = c^{[t - 1, t] ⨀ a^{[t - 1, t]}}

$\hat c^{[t-1,t]}= c^{[t-1,t] \bigodot {a^{[t-1,t]}}}$

{\hat{c}}^{[t - 1, t]}

$\hat c^{[t-1,t]}$ 是分配权重之后的memories，

⨀

$\bigodot$ 是element product.

Multi-view Gated Memory

（1）首先以上面的 $\hat c^{[t-1,t]}$ 为输入，生成update proposal $\hat u^t$ 。

{\hat{u}}^{t} = D_{u} ({\hat{c}}^{[t - 1, t]})

$\hat u^t = D_u(\hat c^{[t-1,t]})$

其中 $D_u:R^{2d_c}\mapsto R^{d_{mem}}$ 。
（2）然后引入了两个gate, $\gamma_{1}$ :(retain gates) $\gamma_{2}$ (update gates)，前者主要控制记忆当前状态的信息，后者主要用于控制前面所算update proposal $\hat u^t$ 的更新。

γ_{1}^{t} = D_{γ_{1}} ({\hat{c}}^{[t - 1, t]})

$\gamma _{1}^t=D_{\gamma_{1}}(\hat c^{[t-1,t]})$ ,

γ_{2}^{t} = D_{γ_{2}} ({\hat{c}}^{[t - 1, t]})

$\gamma _{2}^t=D_{\gamma_{2}}(\hat c^{[t-1,t]})$
其中

D_{γ_{1}}, D_{γ_{2}} : R^{2 d_{c}} \mapsto R^{d_{m e m}}

$D_{\gamma_{1}}, D_{\gamma_{2}}:R^{2d_c}\mapsto R^{d_{mem}}$ 。
（3）所以updated

u^{t}

$u^t$ 可以如下得到：

u^{t} = γ_{1}^{t} ⨀ u^{t - 1} + γ_{2}^{t} ⨀ t a n h ({\hat{u}}^{t})

$u^t=\gamma_{1}^t \bigodot u^{t-1}+\gamma_{2}^t \bigodot tanh(\hat u^t)$

Output

The output of the MFN are the final state of the Multi-view Gated Memory $u^T$ and the output of each of the $n$ LSTMs.

h^{T} = ⨁_{n \in N} h_{n}^{T}

$h^T=\underset{n\in N}{\bigoplus} h_n^T$
representing idividual sequence information.

⨁

$\bigoplus$ denotes vector concatenation.

实验

主要是三个任务：Sentiment Analysis, Emotion Recognition, Speaker Traits Analysis
其数据类型是演讲者的视频，其中包含字幕，视频帧与音频，根据词的发声来划分文本，视频与音频，这样能够保证彼此的对齐，最后Language view特征：T*300, Visual view 特征 T*35, Acoustic view特征 T*74，本文在多个数据集上超越了state of the art 结果，并且进行自身ablation实验，分析其方法部件的有效性。

思考

与我以前常接触的跨模态不同的是，这儿等于是在时间维度上将多个模态（文本，图像，音频）非常严丝合缝地对齐（因为数据是根据同一段视频中，提取不同的view信息），因为LSTM天然的时间建模特性，作者所提出的Delta Memory Network就比较顺利成章地引入，但是如果是其它跨模态问题，比如Image caption, Cross-modal retrieval, visual question answering，不同模态之间虽然彼此联系，但是不存在时间维度上片段一一对齐，不知道这个框架是否能迁移过来，或者如何进行改造？

原始论文链接：Memory Fusion Network for Multi-view Sequential Learning

Github复现：MFN_keras

Github开源（作者目前还没公布源码）：MFN

论文笔记 Memory Fusion Network for Multi-view Sequential Learning (AAAI2018)

猜你喜欢