(2019ACL)ERNIE：Enhanced Language Representation with Informative Entities

像BERT这种预训练的语言模型虽然在很多NLP任务上都取得了不错的效果，但是BERT只是能让一句话表达的更通顺，并没有融合外部的知识。而外部的信息实体是可以提高语言表征能力的。因此这篇论文通过融合知识图谱（KGs）能让模型同时利用词典，语法和知识信息。

为了把外部知识融合到语言表征模型主要会遇到两个问题：一个是知识抽取，一个是知识的融合。

因为知识图谱都是以三元组的形式存储信息，怎么抽取其中的信息并且对其进行编码成为首先需要考虑的问题；
由于语言模型预训练和对知识的表示是不一样的，虽然都是使用向量表示但是它们会映射到不同的向量空间，因此在抽取信息之后如何设计一个预训练目标函数对它们进行融合成为另外一个问题。

模型的整体框架是左边这一部分，主要由两部分组成T-Encoder和K-Encoder。T-Encoder就是为了负责抽取基本的文本信息，使用的是Transformer的encoder结构，K-Encoder负责在收到下层文本信息之后融合外部的知识信息。

对于上面第一个问题，知识抽取。使用的是TransE算法，将图结构编码成知识实体embedding。

然后对文本表示和知识表示分别进行Multi-Head Attention。下面就是进行融合了。

公式（4）和（5）分别表示有实体信息的token和没有实体信息的token怎么进行融合。

但是怎么知道文本中的token有没有实体信息或者应该和哪个实体对应呢？文章采用对每个token计算实体分布的方法，找到对齐的token-实体对：

为了让模型能更好融入信息，避免抽取token-实体对遇到问题，文章采用以下策略：

对于下游任务的微调过程，该模型通过设计了不同的标记token以适应不同的任务。这部分没怎么看懂。