Hierarchical Attention Networks for Document Classification 模型理解篇

本文借鉴了大神的博客，链接：https://blog.csdn.net/liuchonge/article/details/73610734

最近看了HAN用在文本分类的这篇文章。提出的模型使用了分层的注意力机制，对应了文本在字词和句子两个层面的结构。也就是分别在字词层面和句子层面使用注意力机制。这样做的好处有两个：1.模型可以给与不同主要性的字词或者句子不同的关注度，最终的任务效果因此会更好。2.注意力机制的可视化可以帮助我们更好的解释模型。

模型结构

下面是这篇文章提出的模型结构：
在这里插入图片描述
我们结合这张图对模型进行讲解。

模型分为4部分：Word encoder， Word attention， sentence encoder 以及 sentence attention
在Word encoder部分，使用双向的GRU对embedding后的句子进行编码，得到编码向量 $h_i$
在这里插入图片描述
在Word attention部分，首先使用一个单层的MLP对编码向量 $h_i$ 得到一个隐层向量 $u_i$ ，然后用这个隐层向量经过softmax得到权重alpha，最终一个句子的表示就是权重alpha与编码向量 $h_i$ 的和，也就是 $s_i$ ，他的维度与编码向量一致。另外，在进行softmax时使用的上下文向量 $u_w$ 随机初始化，并且在驯良过程中不断改变。
在这里插入图片描述
sentence encoder 和 sentence attention与上面提到的两层本质一样，只不过将单词换成了句子，直接上公式，不多做解释了。