深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[单句标注]

BERT根据自然语言处理下游任务的输入和输出的形式，将微调训练支持的任务分为四类，分别是句对分类、单句分类、文本问答和单句标注。本文就将介绍单句标注的微调训练，其它类别的任务将在《深入理解深度学习——BERT（Bidirectional Encoder Representations from Transform）》系列中的其它文章介绍。

给定一个句子，标注每个词的标签，称为单句标注。常见任务为CoNLL 2003，即给定一个句子，标注句子中的人名、地名和机构名。单句标注任务与BERT的预训练任务具有较大差异，但与文本问答任务较为相似。在进行单句标注任务时，需要在每个词的最终语义特征向量之后添加全连接层，将语义特征转化为序列标注任务所需的特征。与文本问答不同的是，单句标注任务需要对每个词都做标注，故无须横向对比，即不需要引入辅助向量，直接对经过全连接层后的结果做Softmax操作，即可得到各类标签的概率分布，如下图所示。

CoNLL 2003任务需要标注词是否为人名(PER，Person)、地名(LOC，Llocation)或者机构名(ORG，Organization)。考虑到BERT需要对输入文本进行分词操作，独立词会被分成若干子词，故BERT预测的结果将会是5大类（细分为13小类）：

O（非人名地名机构名，O表示Other）
B-PER/LOC/ORG（人名/地名/机构名初始单词，B表示Begin）
I-PER/LOC/ORG（人名/地名/机构名中间单词，I表示Intermediate）
E-PER/LOC/ORG（人名/地名/机构名终止单词，E表示End）
S-PER/LOC/ORG（人名/地名/机构名独立单词，S表示Single）。

将5大类的首字母组合，可得IOBES，这就是序列标注最常用的标注方法。除了序列标注，BERT还可以用于新词发现、关键词提取等多种任务。下面给出NER任务的示例：

任务：给定句子“爱因斯坦在柏林发表演讲”，
根据IOBES标注NER实体输入改写：“[CLS]爱因斯坦在柏林发表演讲”
对Softmax的结果取 $\arg\max$ ，得到最终的NER标注结果为：“爱因斯坦”是人名，“柏林”是地名

BERT Softmax结果

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[单句标注]

猜你喜欢