K-BERT: Enabling Language Representation with Knowledge Graph阅读笔记

最近实验室要做预训练语言模型和知识图谱结合的交互式智能的研究，于是读了这篇北大与腾讯联合发表的K-BERT: Enabling Language Representation with Knowledge Graph。文章把知识图谱（KG）应用在BERT中创建了K-BERT模型，用以解决BERT模型在专业领域表现不佳的问题，一举解决了HES和KN两大问题。

K-BERT模型主要包括四部分：Knowledge layer、Embedding layer、Seeing layer、Mask-Transformer Encoder

其模型结构如图：

1、Knowledge layer（KL）：输入一个sentence“Tim Cook is currently visiting Beijing now.”，本层将KG（知识图谱）中关联到的三元组信息注入到句子中，输出一个sentence tree（每个树枝深度只有1），如图：

2、Embedding layer（EL）：将sentence tree转变成可以输入到Mask-Transformer的Embedding representation，但传统的BERT模型只能处理序列结构的句子输入，而树结构的sentence tree无法直接输入，如果强行把sentence tree转换成序列就会丢失结构信息；因此，在转换过程中要保留树结构的结构信息，这是K-BERT模型的关键，本文采取了一个很巧妙的办法，采用soft-position和visible mask。与BERT一样，转变成的embedding representation有三部分：