(2019ACL)ERNIE:Enhanced Language Representation with Informative Entities

论文链接:https://www.aclweb.org/anthology/P19-1139.pdf

一、Motivation

像BERT这种预训练的语言模型虽然在很多NLP任务上都取得了不错的效果,但是BERT只是能让一句话表达的更通顺,并没有融合外部的知识。而外部的信息实体是可以提高语言表征能力的。因此这篇论文通过融合知识图谱(KGs)能让模型同时利用词典,语法和知识信息。

二、解决的问题

为了把外部知识融合到语言表征模型主要会遇到两个问题:一个是知识抽取,一个是知识的融合。

  • 因为知识图谱都是以三元组的形式存储信息,怎么抽取其中的信息并且对其进行编码成为首先需要考虑的问题;
  • 由于语言模型预训练和对知识的表示是不一样的,虽然都是使用向量表示但是它们会映射到不同的向量空间,因此在抽取信息之后如何设计一个预训练目标函数对它们进行融合成为另外一个问题。

三、模型结构

模型的整体框架是左边这一部分,主要由两部分组成T-EncoderK-EncoderT-Encoder就是为了负责抽取基本的文本信息,使用的是Transformer的encoder结构,K-Encoder负责在收到下层文本信息之后融合外部的知识信息。

对于上面第一个问题,知识抽取。使用的是TransE算法,将图结构编码成知识实体embedding。

然后对文本表示和知识表示分别进行Multi-Head Attention。下面就是进行融合了。

公式(4)和(5)分别表示有实体信息的token和没有实体信息的token怎么进行融合。

但是怎么知道文本中的token有没有实体信息或者应该和哪个实体对应呢?文章采用对每个token计算实体分布的方法,找到对齐的token-实体对:

为了让模型能更好融入信息,避免抽取token-实体对遇到问题,文章采用以下策略:

  • 以5%的概率从识别出来的token-实体对中,随机替换里面的实体,主要为了应对抽错token-实体对的情况;
  • 以15%的概率识别出来的token-实体对中,随机MASK掉token-实体对,主要为了应对没抽出token-实体对的情况;
  • 剩下的token-实体对就保持不变了。

对于下游任务的微调过程,该模型通过设计了不同的标记token以适应不同的任务。这部分没怎么看懂。

猜你喜欢

转载自blog.csdn.net/Answer3664/article/details/106307007