Hierarchical Attention Networks for Document Classiﬁcation学习笔记

这篇博客是在阅读了 Hierarchical Attention Networks for Document Classiﬁcation 这篇论文之后所做的总结体会，若有任何不准确的地方，烦请大家斧正。
[TOC]

0. 概述

这篇论文提出了一个用于文本分类的层次化Attention网络。这个模型有两个鲜明的特点：
1. 它有类似于文本层次结构的层次结构。
2. 它有两个层次化的attention机制，分别应用于单词水平和句子水平，使它能够在建立文本表示的时候对不同重要性的内容倾注不同注意力。
这篇论文的主要贡献就在于这个新的神经结构，the Hierarchical Attention Network（HAN）。这个结构是迎合有关文本结构的两种主要观点：
1. 因为文本有分层结构（句子中的单词，文本中的句子），同样地，通过先建立句子的表示，然后再把它们聚合成文本的表示。
2. 文本中不同的单词和句子信息量不同。另外，单词和句子的重要性是高度依赖上下文的，同一个单词或者句子在不同的上下文里可能重要性就不同。因此，该模型包含了两个层次的attention机制——单词和句子。
与前人研究的关键不同在于此系统使用上下文来发现标志序列何时相关，而不是简单的过滤标志（序列），脱离了上下文。

1. HAN网络

HAN的整体结构如下图展示，包含四个部分：单词序列编码器，单词水平attention层，句子编码器和句子水平attention层。
该图片由原论文截取

1.1 基于GRU的序列编码器

Gated Recurrent Unit（GRU）使用门机制来追踪序列特征，而不是使用分离的记忆单元。有两种门：重置门rt和更新门zt。它们一起控制信息是怎样更新到状态的。t时刻GRU是这样计算新的状态的：
该图片由原论文截取
这是用前一个状态ht-1和当前用新的序列信息计算的新状态ht~之间计算的线性插值。zt决定保持多少过去的信息，增加多少新的信息。zt是这样更新的：

xt是t时刻的序列向量。备选项ht~是用一种类似于循环神经网络（RNN）的方法计算的：
该图片由原论文截取
这里rt是重置门，它控制着过去的状态对备选状态有多少影响。如果rt是0，那么它就忘记了之前的状态。rt是这样更新的：

1.2 层次化attention结构

此次研究中关注的是文本分类。假设一篇文本含有L个句子，每个句子包含Ti的单词。wit（t∈[1, T]）表示第i个句子的单词。该模型把原文本转化为向量表示，在这个上面建立一个分类器来实现文本分类。

1.2.1 单词编码器

一个有wit的句子，先用向量矩阵We把单词转换为向量，xij = We.wij。使用一个双向的GRU通过总结两个方向的单词信息来获得的单词的含义，因此就在含义中包含了上下文的信息。双向GRU包含从wi1到wiT读句子si的前向GRU f→ 和从wiT到wi1读句子的反向GRU f← ：
该图片由原论文截取
通过连接前向隐藏层 hit→ 和反向隐藏层 hit← 得到了所给单词wit的含义表示，例如，hit = [hit→，hit←] 这总结了以wit为中心的整个句子的信息。
需要注意的是这里用的是词向量。也可以用GRU从字符角度创建词向量得到更完整的模型，此处简化。

1.2.2 单词 Attention

并不是所有单词对句子意思的表示影响相同。因此，引进attention机制来提取对句子意思重要的单词，把这些有信息的单词的表示聚集起来形成句子向量。
该图片由原论文截取
先通过一个一层的MLP得到单词解释hit，从而将hit作为一个隐藏表示来得到uit，然后我们用一个单词水平的上下文向量uw衡量单词的重要性作为uit的简化，之后通过一个softmax函数得到了一个正则化的重要性权重αit。接下来，计算句子向量si，它是基于权重的单词解释的加权求和。上下文向量uw可以看作是一个固定查询“有信息的单词是什么”的高层次的表示。uw是随机初始化的，并在训练过程中连带地训练。