ERNIE: Enhanced Language Representation with Informative Entities论文笔记

一、写在前面的话

这篇论文发表于2019ACL，其主要思路是在BERT的基础上引入了知识（具体来说是实体向量），并且在预训练任务方面提出了Pre-training for Injecting Knowledge。在实验结果方面，ERNIE较bert在部分测评中有所提升，另外ERNIE还加入了Entity Typing和Relation Classification上的fine-tune，取得了不错的效果。

二、论文笔记

1. 论文整体架构

下图是论文网络的整体架构，可以看出在模型上主要的改进是在bert的后段加入了实体向量和经过bert编码后的向量拼接，另外在输出时多加了实体自编码的任务，从而帮助模型注入实体知识信息。

2. T-Encoder

这部分就是纯粹的bert结构，在该部分模型中主要负责对输入句子（token embedding, segment embedding和positional embedding）进行编码，整个的过程直接参考bert即可。

2. K-Encoder

这部分是该论文创新的重头戏。

先是实体信息的引入，该论文使用了TransE训练实体向量，再通过多头Attention进行编码（其实可以用更负责一点的训练方法，应该还有一定的提升空间），然后通过实体对齐技术，将实体向量加入到对应实体的第一个token编码后的向量上。（例如姚明是一个实体，在输入时会被分割成姚、明，最后在这部分引入的姚明这个实体的向量会被加入到要这个字经过bert之后的向量上去）