【EasyNLP】带你轻松玩转CLUE榜单

重磅来袭!EasyNLP正式成为CLUE榜单的官方工具!

1、导读

EasyNLP是一款简单、易用、高效的NLP开发工具,其完全基于Pytorch实现,提供了包括预训练语言模型(Pre-trained Language Model)、多模态模型(Multimodal Models)、知识增强模型(Knowledge-enhanced Models)等开源和自研模型,包含自行实现的数据仓库(DataHub),提供了包括Adam、AdamW、SGD等丰富的优化器,涵盖监督学习(Supervised Learning)、小样本学习(Few-shot Learning)以及迁移学习(Transfer Learning)等在内的场景。EasyNLP已经在多项学术研究和业务落地等方面上积累了丰富的成果。更多有关EasyNLP框架的介绍详见专栏:

EasyNLP玩转NLP - 知乎EasyNLP案例详解https://www.zhihu.com/column/c_1500207477181960192

CLUE是目前国内非常权威的中文自然语言理解评测基准之一,有大量国内外互联网公司、高校以及个人参与到刷榜行列中。截止目前,CLUE已涵盖包括文本分类(Text Classification)、文本匹配(Text Matching)、阅读理解(Machine Reading Comprehension)、多项选择(Multi-choice Question Answering)、信息抽取(Information Extraction)等多项常用任务,最近也增加了包括小样本(FewCLUE)、零样本(ZeroCLUE)、知识图谱(KgCLUE)等新的评测场景。不论是在打造行业影响力,还是在学术论文中验证方法的有效性,CLUE系列榜单深受NLP研究者和爱好者的青睐。

目前CLUE官网已经将EasyNLP的刷榜工具作为唯一的官方工具。可点击下方链接立即体验:

CLUE benchmarkhttp://www.cluebenchmarks.com/index.html


2、CLUE Benchmark

我们以CLUE的分类榜单为例,CLUE的分类榜主要包含AFQMC、CMNLI、CSL、IFLYTEK、OCNLI、TNEWS、和WSC任务。CLUE1.1收录了OCNLI任务,而CLUE1.0收录了CMNLI任务。这些任务的简要描述如下所示:

  • AFQMC(蚂蚁金融语义相似度):给定两个用户提问的短文本,判断两个文本是否相似;

  • CMNLI(中文自然语言推理):给定两个文本,判断它们是否存在蕴含关系;

  • CSL(中文科技文献数据分类):给定一个长文本以及若干关键词,判断这些关键词是否与给定文本有关;

  • IFLYTEK(长文本分类):1.7万多条关于app应用描述的长文本标注数据,一共有119个类别;

  • OCNLI(中文自然语言推理):给定两个文本,判断它们是否存在蕴含关系;

  • TNEWS(今日头条新闻分类):给定一个短文本,判断其所属的新闻类别,一共有15个新闻类;

  • WSC(词语消歧):给定一个短文本,以及两个词,其中一个是实体,另一个是代词,判断代词是否指代相应的实体;

各评测任务的数据分布情况如下所示:

评测任务

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

训练集

34,334

391,782

20,000

12,133

50,000

53,360

1,244

验证集

4,316

12,426

3,000

2,599

3,000

10,000

304

测试集

3,861

13,880

3,000

2,600

3,000

10,000

2,574

3、EasyNLP For CLUE

我们将CLUE相关的刷榜工具部署在EasyNLP中,点击立即体验:

GitHub-EasyNLPhttps://github.com/alibaba/EasyNLP/tree/master/benchmarks/clue

快速使用它只需要3步:

  • Download & Development:将项目文件下载到本地服务器后,按照README部署说明安装相关依赖包,并跳转至clue目录下:

cd benchmarks/clue
  • Training For CLUE:我们已经提供了训练脚本,只需要修改脚本中的相关路径和参数,即可实现训练。例如对CSL任务进行训练:

bash run_clue_adamw.sh 0 train csl

bash run_clue_bertadam.sh 0 train csl

其中“0”表示GPU的设备编号,如果使用多卡,则罗列出所有卡编号并用逗号隔开。“train“表示当前为训练阶段,“csl”表示评测任务,可自行更换为其他任务。

  • Generation Predictions:训练完后,只需要执行脚本即可直接生成测试集预测结果:

bash run_clue_adamw.sh 0 test csl

评测结果文件存储的默认路径为./tmp/predict/clue/csl/test_prediction.json。该结果文件即可直接提交至官网实现评测。

4、Experiments

我们使用默认的超参数,对几个分类任务进行了评测,在验证集上的评测结果如下所示:

(1) bert-base-chinese:

Task

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

P

72.17%

75.74%

81.9%

60.22%

78.31%

57.52%

75.33%

F1

52.96%

75.74%

82.68%

60.22%

78.30%

57.52%

80.82%

(2) macbert-base:

Task

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

P

74.23%

80.35%

81.70%

61.14%

80.65%

57.65%

80.26%

F1

55.77%

80.47%

82.43%

61.14%

80.65%

57.65%

84.54%

(3) chinese-roberta-wwm-ext:

Task

AFQMC

CMNLI

CSL

IFLYTEK

OCNLI

TNEWS

WSC

P

73.10%

80.65%

80.07%

60.98%

80.75%

57.93%

86.84%

F1

56.04%

80.59%

81.50%

60.98%

80.75%

57.93%

89.58%

接下来,EasyNLP将会继续集成包括阅读理解、多项选择等其他NLP评测任务,并扩展到FewCLUE、ZeroCLUE等榜单。敬请拭目以待!


本文首发

【EasyNLP】带你轻松玩转CLUE榜单 - 知乎重磅来袭!EasyNLP正式成为CLUE榜单的官方工具!1、导读EasyNLP是一款简单、易用、高效的NLP开发工具,其完全基于Pytorch实现,提供了包括预训练语言模型(Pre-trained Language Model)、多模态模型(Multimodal …https://zhuanlan.zhihu.com/p/518823721

参考文献

EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing

@article{DBLP:journals/corr/abs-2205-00258,
  author    = {Chengyu Wang and
               Minghui Qiu and
               Taolin Zhang and
               Tingting Liu and
               Lei Li and
               Jianing Wang and
               Ming Wang and
               Jun Huang and
               Wei Lin},
  title     = {EasyNLP: {A} Comprehensive and Easy-to-use Toolkit for Natural Language
               Processing},
  journal   = {CoRR},
  volume    = {abs/2205.00258},
  year      = {2022},
  url       = {https://doi.org/10.48550/arXiv.2205.00258},
  doi       = {10.48550/arXiv.2205.00258},
  eprinttype = {arXiv},
  eprint    = {2205.00258},
  timestamp = {Tue, 03 May 2022 15:52:06 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2205-00258.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

相关文章:

猜你喜欢

转载自blog.csdn.net/qq_36426650/article/details/125224632