AMBERT!超越BERT!多粒度token预训练语言模型

AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

1. 之前的BERT还存在什么问题?

归纳:即BERT中的token采取的是细粒度的,这种细粒度无法解决英语中的“多词表达形式(如 ice creaming; New York,这些多词表达分开的意思和真正的意思相去甚远)”

2. 作者的解决方案

在本文中,我们提出了一个多粒度的BERT模型(AMBERT),它同时使用了细粒度和粗粒度标记。对于英语,AMBERT通过使用两个编码器同时构造输入文本中的单词和短语的表示来扩展BERT。确切地说,AMBERT首先在单词和短语级别上进行标记化。然后,它将单词和短语的嵌入作为两个编码器的输入。它在两个编码器中使用相同的参数。最后,它在每个位置上分别获得该词的上下文表示和该短语的上下文表示。注意,由于参数共享,AMBERT中的参数数目与BERT中的参数数目相当。AMBERT可以在单词级和短语级表示输入文本,以利用这两种标记方法的优点,并在多个粒度上为输入文本创建更丰富的表示

3 作者贡献(创新点)

  1. 多粒度预训练语言模型的研究
  2. 提出一种新的被称为AMBERT的预训练语言模型作为BERT的扩展,它利用了多粒度的token和共享的参数
  3. AMBERT在英文和中文基准数据集GLUE, SQuAD, RACE,和CLUE上的实证验证。

具体可参考专知链接和论文:https://www.zhuanzhi.ai/vip/bc6b030cfb7f96c81f1eb5440fcb7f94
论文地址

猜你喜欢

转载自blog.csdn.net/qq_40199232/article/details/108333383