NLP-了解BERT下游任务

BERT四大下游任务

1. 句子对分类任务

MNLI:大规模分类任务,目标是预测第二个句子相对于第一个句子是包含,矛盾还是中立。
QQP:二分类任务,预测Quora在两个语义问题上是否等效。
STS-B:语义文本相似性基准,从新闻头条或者其他来源提取句子对的集合。然后按分值标注,表示两个句子在语义上多相似。
MRPC:自动从在线新闻源中提取句子对组成,并带有人工标注,以说明句子对中的句子在语义上是否等效。
SWAG: 对抗生成的情境数据集包含113k个句子对完整示例,用于评估扎实的常识推理。给定一个句子,任务是在四个选择中选择最合理的连续性。其中,在SWAG数据集上进行微调时,根据每个输入序列都包含给定句子和可能的延续词串联构造训练数据

2. 单句子分类任务

SST-2: 斯坦福情感树库是一种单句二分类任务,包括从电影评论中提取的句子以及带有其情绪的人类标注。
CoLA: 语言可接受性语料库也是一个单句二分类任务,目标是预测英语句子在语言上是否“可以接受”

3. 问答任务

SQuAD:斯坦福问答数据集是10万个问题/答案对的集合。给定一个问题以及Wikipedia中包含答案的段落,任务是预测段落中的答案文本范围(start,end)。
所有BERT微调方法都是在预训练模型中添加一个简单的分类层,并且在下游任务上共同对所有参数进行微调。然而,并非所有任务都可以轻松由BERT体系结构表示,因此需要添加特定于任务的模型体系结构。

4. 命名实体识别任务

单句子标注任务也叫做命名实体识别任务,简称NER,常见的NER数据集有CoNLL-2003等。该任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。
同样,Bert在NER任务上也不能通过添加简单的分类层进行微调,因此我们需要添加特定的体系结构完成NER任务。

猜你喜欢

转载自blog.csdn.net/weixin_44077556/article/details/128115491