Attention机制论文阅读——Soft和Hard Attention

论文：Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

提出了attention-based model的变种：Stochastic "Hard" Attention和Deterministic "Soft" Attention

文章中几个需要区分的向量：

1、annotation vector

2、context vector

相同的框架：

1、编码器：卷积神经网络提取特征：

输入一幅图像产生一个标注y，表示为：

这里K是词汇表的大小，C是标注序列的长度，每一个y_i是一个K维的向量。使用CNN是为了提取一组特征向量，即annotation vector。特征提取器产生L个向量，每个向量是D维的，跟图想象中某一部分区域相关。

为了获得特征向量和二维图像之间的相关性，文中从底层的卷积层提取特征，区别于先前使用全连接层提取特征的工作。这样解码器能够选择性的关注于图像中的某一部分区域。

2、解码器：LSTM网络

使用LSTM网络产生最后的输出，本文中LSTM网络结构如图：

LSTM网络结构用公式表示为：

其中i_t, f_t, c_t, o_t, h_t 分别是输入门、忘记门、记忆单元、输出门和LSTM网络的隐藏层状态，是时刻t输入图像和当前状态相关性的动态表示，是context向量，是embedding矩阵。

定义一个机制从annotation vector 中计算，对于每一个位置i，该机制能产生一个权重，在Hard Attention机制中，该权重决定i是否是产生下一个word的正确的位置；在Soft Attention机制中，该权重是位置i在所有中的相对重要性。每一个annotation vector 的权重通过一个 attention模型计算得到，这个模型用于计算annotation vector 和隐藏层状态之间的相关性。