T5全称是Text-to-Text Transfer Transformer,使用文本生成的方式来解决各种自然语言处理任务,例如机器翻译、摘要、问答等。

T5全称是Text-to-Text Transfer Transformer,是一种模型架构或者说是一种解决NLP任务的一种范式。它的主要目标就是使文本生成的方式来解决各种自然语言处理任务,例如机器翻译、摘要、问答等。T5通过使用一种统一的编码和解码方法来解决不同的任务,从而避免了为每个任务单独设计模型的问题,在训练过程中使用了大量的数据和计算资源,以便在比较小的数据集上训练任务特定的模型。并且在大型的数据集上进行了广泛的评估,在许多自然语言处理任务中表现出优越的性能。

零样本文本分类

使用生成模型进行零样本分类的主要思路是将候选标签待分类文本按照一定格式进行拼接后作为模型输入,期望模型可以输入文本所属的标签。图4展示了在ModelScope上进行测试的结果(该用例并未在训练过程中学习过)。

零样本分类增强

由于文本生成模型的输出具有一定的随机性,在使用基于文本生成的零样本学习模型进行零样本分类时,模型输出的结果可能并不在所给的候选标签之中,从而导致模型不可用。因此,我们使用了一种数据增强的方式来提升模型在零样本分类中的稳定性,并设计了零样本分类稳定性评测对模型分类的稳定性进行指标的量化。

零样本分类稳定性评测

评测方式

从40万条文本中随机挑选了1万条文本作为待分类文本,再为每条文本从130个标签库中随机挑选随机数量的标签作为候选标签,最后结合文本和候选标签得到评测数据集。

对于每个模型均使用其在训练时使用的prompt构建模型输入。如果模型最终的输出存在于候选标签中,则认为该模型在该样本上的预测稳定,否则认为模型不稳定。

评测结果

模型名字

零样本分类稳定率(%)

PromptCLUE [3]

48.65

PromptCLUE-base-v1-5 [4]

76.32

未进行分类增强

64.32

全任务零样本学习-mT5分类增强版-中文-base

98.51

从评测结果中可以发现,经过零样本分类增强之后,该模型零样本分类稳定率从64.32提升到了98.51。

样例测试

测试流程

  1. 使用模型指定的prompt构建输入,进行第一次分类

  1. 如果分类结果稳定,即输出的内容属于候选标签,那么将输出的标签从候选标签中剔除

  1. 再次根据指定的prompt构建输入,进行分类。

  1. 重复步骤b和步骤c,直到分类结果不稳定候选标签已清空。

测试用例

测试用例使用PromptCLUE中所给的demo用例。

待分类文本:如果日本沉没,中国会接收日本难民吗?

候选标签:故事,文化,娱乐,体育,财经,房产,汽车,教育,科技,军事,旅游,国际,股票,农业,游戏

测试结果

PromptCLUE

从测试结果中可以发现,Prompt CLUE在第3次分类时,已经出现了模型不稳定的情况。

全任务零样本学习-mT5分类增强版-中文-base

在测试过程中,该模型可以一直保持输出稳定直到候选标签被完全清空。

零样本学习评测

基于文本生成的零样本学习模型不仅支持零样本分类,同时还可以支持其他任务,如阅读理解、摘要生成、翻译等。因此,该模型选用了pCLUE[5]进行评测,同时与PromptCLUE进行了对比。整体评测结果如下:

模型名字

Score

阅读理解(F1)

阅读理解(EM)

分类(acc)

推理(acc)

生成(rouge-l)

PromptCLUE

0.495

0.650

0.518

0.539

0.515

0.342

nlp_mt5_zero-shot-augment_chinese-base

0.528

0.685

0.560

0.582

0.550

0.357

本章小结

使用文本生成的方式实现零样本分类时,可以将所有候选标签进行结合,只需要生成一个样本进行分类。相比基于NLI的零样本分类模型,在推理效率上优势比较大。但该模型会带来了分类结果不稳定的问题,即输出的文本不存在于候选标签中。而全任务零样本学习-mT5分类增强版-中文-base通过一种数据增强的方式大幅提升了在文本分类场景下的稳定性,在零样本分类稳定性评测中表现出的准确率可达98.51%,远大于其他模型,但在稳定性方面依然不如基于nli的模型。因此,该模型适用于对推理时间较为敏感的低资源文本分类场景。

总结

本文主要介绍了两类可以用于零样本文本分类的模型。

  1. 基于自然语言推理的零样本分类模型:适用于对模型推理时间不敏感的低资源文本分类场景,在抹零战役工单分类任务中,表现出了优异的性能。

  1. 基于文本生成的零样本学习模型:适用于对模型推理时间要求较高的低资源本文分类场景,同时还能进行其他任务的零样本学习。而本文介绍的模型在分类场景下进行了特定的数据增强,大幅提高了分类的稳定性,相比于其他模型更加适合应用于零样本文本分类场景。

参考文献

[1] Wang W, Bi B, Yan M, et al. Structbert: Incorporating language structures into pre-training for deep language understanding[J]. arXiv preprint arXiv:1908.04577, 2019.

[2] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.

[3] https://www.modelscope.cn/models/ClueAI/PromptCLUE/summary

[4] https://www.modelscope.cn/models/ClueAI/PromptCLUE-base-v1-5/summary

[5] https://github.com/CLUEbenchmark/pCLUE

猜你喜欢

转载自blog.csdn.net/qq_39970492/article/details/131113422
今日推荐