NeurIPS 大型语言模型效率挑战：
1 LLM + 1GPU + 1Day

NeurIPS 2023 挑战赛

要参加本次竞赛，您必须从我们批准的列表中的基本模型开始，仅使用开源数据，并将微调限制在单个24 小时内。此微调应仅在一张显卡上进行，该显卡必须是NVIDIA 4090或NVIDIA A100 (40GB)。我们的比赛将有两个硬件赛道：NVIDIA 4090赛道 和NVIDIA A100赛道，每个赛道将单独进行评估。

批准的基本型号：

比赛的起始模型应该是一个没有指令调整的开放基础模型。我们接受的许可证示例包括MIT、Apache 2、BigScience RAIL。我们也很乐意根据具体情况讨论其他许可证，例如，根据社区利益，如果您请求并获得下载链接，我们将接受 LLAMA 2 社区许可协议。下面列出的常见自回归和自动编码器基本模型的所有尺寸都是允许的。

Falcon
LLaMA or Llama 2
OpenLLaMA
Red Pajama Base (not instruction tuned models)
MPT
OPT
Bloom
GPT Neo, J, NeoX, Pythia
GPT2
T5 (not Flan-T5)
BART
DeBERTa
RoBERTa
BERT
ALBERT
DistilBERT
Electra
UL2
Cerebras (btlm, GPT)
DeciLM-6B

如果您计划使用此处未列出的开源基本模型系列，请联系我们，我们将考虑将其添加到列表中。请尊重本次比赛的荣誉制度，仅通过合法渠道获取您的基础模型。（即没有盗版 LLaMA 权重）。任何使用通过非法手段获得的基础模型的提交将被取消资格。

数据集：

欢迎您使用任何开源数据集。例如：

在任何情况下，您都不应使用违反数据使用协议、版权法或隐私政策的数据。这意味着您不应该使用利用生成内容的数据集，无论是来自另一个 LLM 的说明/提示还是结果/答案的形式，如果该 LLM 没有明确允许您这样做的许可。如果您选择创建自己的数据集，则它必须是开源的，并且在提交时可供公众轻松访问。

评估：

我们比赛的评估过程将分两个阶段进行。在第一阶段，我们将运行 HELM 基准测试的子集以及一组秘密保留任务。坚持任务将包括逻辑推理类型的多项选择问答场景以及会话聊天任务。提交的内容将根据其在所有任务中的表现进行排名。排名将由所有评估任务的几何平均值决定。该分数将显示在排行榜中

分数____=Π（平均胜率（任务）________ _ _ _ _ _ _）分数=Π (平均胜率(任务) )

2023 年 10 月 15 日比赛结束后，我们将联系每个硬件类别中模型得分最高的前 3 名团队，要求他们提交所有必要的代码和数据，以从他们选择的开源基础模型开始重现他们的模型。然后我们将复制他们的整个过程，以确保它是可重复的，并且使用单个 GPU 可以在 24 小时内实现相同的结果。如果在这些强加条件下无法重现得分最高的模型，我们将继续考虑硬件类别中得分最高的模型，我们将继续此过程，直到选择可重现且高性能的模型，或者我们耗尽所有潜在选项，并宣布该类别没有获奖者。