深度学习之Attention Model（注意力模型）

1、Attention Model 概述

　　深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。

　　人脑的注意力模型，说到底是一种资源分配模型，在某个特定时刻，你的注意力总是集中在画面中的某个焦点部分，而对其它部分视而不见。

2、Encoder-Decoder框架

　所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。seq2seq问题简单的说，就是根据一个输入序列x，来生成另一个输出序列y。常见的应用有机器翻译，文档提取，问答系统等。Encoder-Decoder模型中的编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。

　　Encoder-Decoder（编码-解码）是深度学习中非常常见的一个模型框架，比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的；比如这两年比较热的image caption的应用，就是CNN-RNN的编码-解码框架；再比如神经网络机器翻译NMT模型，往往就是LSTM-LSTM的编码-解码框架。因此，准确的说，Encoder-Decoder并不是一个具体的模型，而是一类框架。Encoder和Decoder部分可以是任意的文字，语音，图像，视频数据，模型可以采用CNN，RNN，BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder，我们可以设计出各种各样的应用算法。

　　Encoder-Decoder框架可以看作是一种文本处理领域的研究模式，应用场景异常广泛，下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示：

　　对于句子对<X,Y>，我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。而X和Y分别由各自的单词序列构成：

　　Encoder顾名思义就是对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C：

　　对于解码器Decoder来说，其任务是根据句子X的中间语义表示C和之前已经生成的历史信息y₁, y₂….y_i-1来生成i时刻要生成的单词y_i

3、Attention Model

　　在Encoder-Decoder框架中，在预测每一个y_i时对应的语义编码c都是一样的，也就意味着无论句子X中的每个单词对输出Y中的每一个单词的影响都是相同的。这样就会产生两个弊端：一是语义向量无法完全表示整个序列的信息，再者就是先输入的内容携带的信息会被后输入的信息稀释掉，或者说，被覆盖了。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码的准确度自然也就要打个折扣了。

　　为了解决上面的弊端，就需要用到我们的Attention Model（注意力模型）来解决该问题。在机器翻译的时候，让生成词不是只能关注全局的语义编码向量c，而是增加了一个“注意力范围”，表示接下来输出词时候要重点关注输入序列中的哪些部分，然后根据关注的区域来产生下一个输出。模型结构如下：

　　此时生成目标句子单词的过程就成了下面的形式：

　　比如输入的是英文句子：Tom chase Jerry，Encoder-Decoder框架逐步生成中文单词：“汤姆”，“追逐”，“杰瑞”。在没加入Attention Model之前，生成的语义编码C是一致的，而加入之后，对应的语义编码可能如下：

　　其中，f2函数代表Encoder对输入英文单词的某种变换函数，比如如果Encoder是用的RNN模型的话，这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值；g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数，一般的做法中，g函数就是对构成元素加权求和，也就是常常在论文里看到的下列公式：

　　假设C_i中那个i就是上面的“汤姆”，那么T_x就是3，代表输入句子的长度，h₁=f(“Tom”)，h₂=f(“Chase”)，h₃=f(“Jerry”)，对应的注意力模型权值分别是0.6, 0.2, 0.2，所以g函数就是个加权求和函数。如果形象表示的话，翻译中文单词“汤姆”的时候，数学公式对应的中间语义表示Ci的形成过程类似下图：

　　这里还有一个问题：生成目标句子某个单词，比如“汤姆”的时候，你怎么知道AM模型所需要的输入句子单词注意力分配概率分布值呢？就是说“汤姆”对应的概率分布：

　　此时的Encoder和Decoder都采用RNN模型，我们来看看现在的Encoder-Decoder模型结构：

　　用下图可以较为便捷地说明注意力分配概率分布值的通用计算过程：

　　对于采用RNN的Decoder来说，如果要生成yi单词，在时刻t = i，我们是可以知道在生成Y_i之前的隐层节点t = i时刻的输出值Hⁱ的，而我们的目的是要计算生成Y_i时的输入句子单词“Tom”、“Chase”、“Jerry”对Y_i来说的注意力分配概率分布，那么可以用t = i时刻的隐层节点状态H_i去一一和输入句子中每个单词对应的RNN隐层节点状态h_j进行对比，即通过函数F(h_j, H_i)来获得目标单词Y_i和每个输入单词对应的对齐可能性，这个F函数在不同论文里可能会采取不同的方法，然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息，区别只是在F的定义上可能有所不同。

4、RNN-RNN编码-解码模型实例

4.1 Encoder-Decoder模型

　　在这里我们选取编码和解码都是RNN的组合。在RNN中，当前时刻隐层状态是由上一时刻的隐层状态和当前时刻的输入决定的，也就是当前隐层状态的输出：