Meta 的 Belebele:机器阅读理解的惊人突破!涵盖122 种语言变体的多项选择机器阅读理解 (MRC) 数据集。该数据集可以评估高、中、低资源语言的单语言和多语言模型

最近,Meta 发布了 Belebele!涵盖122 种语言变体的多项选择机器阅读理解 (MRC) 数据集。该数据集可以评估高、中、低资源语言的单语言和多语言模型。

虽然所有问题都与文章直接相关,但事实证明,英语数据集本身就足以挑战最先进的语言模型。由于完全并行,该数据集可以直接比较所有语言的模型性能。

作品

每种语言变体 900 个问题
488 个不同的段落,每个段落有 1-2 个相关问题。
每题有 4 个选择题答案,其中只有 1 个是正确的。
122 种语言/语言变体(包括英语)。
总共 900 x 122 = 109,800 个问题。

训练集

Belebele 数据集仅用作测试集,而不用于训练或验证。因此,对于需要额外特定任务训练的模型,建议使用由来自预先存在的英语多项选择 QA 数据集的样本组成的组装训练集。

研究人员考虑了不同的数据集并确定了最兼容的数据集:RACE、SciQ、MultiRC、MCTest、MCScript2.0和ReClor。

对于六个数据集中的每一个,从各自的格式中解包和重组段落和问题。然后过滤掉不太合适的样本(例如有多个正确答案的问题)。

最终,数据集包含 67.5k 个训练样本和 3.7k 个开发样本,其中一半以上来自 RACE。Meta 提供了一个脚本(assemble_training_set.py)来重建这个数据集,供任何人执行任务微调。

数据集地址

https://github.com/facebookresearch/belebele

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132900855
今日推荐