最近，Meta 发布了 Belebele！涵盖122 种语言变体的多项选择机器阅读理解 (MRC) 数据集。该数据集可以评估高、中、低资源语言的单语言和多语言模型。

虽然所有问题都与文章直接相关，但事实证明，英语数据集本身就足以挑战最先进的语言模型。由于完全并行，该数据集可以直接比较所有语言的模型性能。

作品

每种语言变体 900 个问题
488 个不同的段落，每个段落有 1-2 个相关问题。
每题有 4 个选择题答案，其中只有 1 个是正确的。
122 种语言/语言变体（包括英语）。
总共 900 x 122 = 109,800 个问题。

训练集

Belebele 数据集仅用作测试集，而不用于训练或验证。因此，对于需要额外特定任务训练的模型，建议使用由来自预先存在的英语多项选择 QA 数据集的样本组成的组装训练集。

研究人员考虑了不同的数据集并确定了最兼容的数据集：RACE、SciQ、MultiRC、MCTest、MCScript2.0和ReClor。

对于六个数据集中的每一个，从各自的格式中解包和重组段落和问题。然后过滤掉不太合适的样本（例如有多个正确答案的问题）。

最终，数据集包含 67.5k 个训练样本和 3.7k 个开发样本，其中一半以上来自 RACE。Meta 提供了一个脚本（assemble_training_set.py）来重建这个数据集，供任何人执行任务微调。

https://github.com/facebookresearch/belebele