论文阅读 | ACL2019 Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

一、摘要

提出了一种基于多粒度语言信息和外部语言知识的中文关系抽取框架。在该框架中，1）将单词级信息合并到字符序列输入中，避免了分词错误；2）借助外部语言知识对多义词的多种意义进行建模，以降低多义词歧义的影响。

二、方法

这部分主要介绍用于中文关系抽取的MG网格模型。

这个模型分为三个部分：

输入表征（Input Representation）：给定一个具有两个实体的句子，该部分表示句子中的所有单词和字符。该部分可以使用单词级和字符级信息。

MG网格编码器（MG Lattice Encoder）：将外部知识应用到词义销歧中。这部分使用一个网格结构的LSTM网络为每个输入实例构造一个分布式的表示。

关系分类器（Relation Classifier）：在学习隐藏状态之后，采用字符级机制来合并特征。然后将最后的句子表示输入softmax分类器来预测关系。

下面对这三个部分进行一个详细的解释。

1. 输入表征

模型的输入是一个有两个标记实体的中文句子。为了利用多粒度信息，在句子中对字符和单词同时进行表示。

1.1 字符级表示

模型将每个输入的句子作为字符序列。给定一个有M个字符的句子s = {c₁, ..., c_M}，首先用skip-gram将字符c_i映射为d^c维向量x_i^ce∈ R^{d^}^c。

此外，利用位置的embedding来指定实体对，实体对指的是当前字符到头实体和尾实体的相对距离。字符c_i到两个实体的相对距离分别是p_i¹和p_i²。p_i¹的计算公式为：

其中b¹和e¹是头实体的开始和结束索引。p_i²的计算方法也是类似的。之后通过查找位置embedding表，将p_i¹和p_i²转化为两个对应的向量x_i^p₁∈ R^{d^p}和x_i^p₂∈ R^{d^}^p。

最后，将字符c_i的输入表示为x_i^c = {x_i^ce; x_i^p₁; x_i^p₂}∈ R^d(d = d^c + 2 × d^p)。

字符的表示x_c = {x₁^c, ..., x_M^c}直接输入模型。

1.2 单词级表示

为了充分表示单词级信息，模型需要输入句子中所有潜在单词的信息。这里，潜在的单词是在已经分词的大量原始文本上构建的词典D中与某个单词匹配的任意字符子序列。设w_b,e是从b字符到e字符的子序列，使用word2vec将其转换成实值向量x_b,e^w∈ R^{d^w}。

不过word2vec只能将每个单词映射到一个单独的embedding，忽略了有些单词的多义性。为了解决这个问题，将HowNet作为一个外部知识库合并到模型中，以表示单词的意义。

2. 编码器

编码器的直接输入是一个字符序列，加上词典D中所有潜在的单词。经过训练，其输出是句子的隐状态向量h。其基于两种策略：基本网格LSTM编码器和MG网格LSTM编码器。

3. 关系分类器

学习了实例h∈ R^{d^h×M}的隐状态后，首先采用字符级的attention将h合并为句子级的特征向量，记作h*∈ R^{d^h}。这里d^h表示隐状态的维度，M表示序列的长度。最后将h*输入softmax分类器计算每个关系的置信度。

三、实验结果

1. 模型结合单词级与字符级信息的能力

2. 网格编码器的影响

3. 单词感知表征的影响

4. 与其他模型的对比

四、未来工作

提高MG网格利用多粒度信息的能力，更多的信息可以被整合到MG网格中。