如何降低模型成本?Platypus:快速、廉价且强大的LLM,仅用一个 GPU 和 5 小时的LLaMA2 微调就击败了其他对手

如何降低模型成本?

近年来,模型参数爆炸到数量巨大(PaLM 为 540 B)。有人提出的问题是这个参数数量是否必要。

根据 OpenAI 的说法,随着模型的增长,性能也会提高。此外,还出现了突现属性(除非在一定规模内才能观察到的属性)。

这种观点受到了以下事实的挑战:实际上更多的数据,因此扩展受到最佳训练模型所需的令牌数量的限制。此外,甚至这些新兴属性也可能不存在。

龙猫缩放定律,随着参数数量的增加,我们需要更多的数据来对其进行最佳训练
其次,这些专有模型不能被科学界自由分析或使用。因此,首先是BLOOM,然后是META 的 LLaMA,社区已转向使用开源模型。LLaMA还表明,对数据的更多关注使得较小的模型能够与较大的模型竞争。

然而,另一方面,小模型不能像大模型一样具有泛化能力。然而,这导致人们寻找降低这些模型成本的技术,例如知识蒸馏(教师模型教授学生模型)。后来的方法试图通过提取数据集(从大型训练数据集开始,到较小但同时有效的数据集)来进一步降低成本。

在这里插入图片描述
降低计算成本的另一个想法是混合专家,其中网络的各个部分根据输入被激活。例如,在开关变压器中,为每个示例(以及不同的令牌)选择不同的参数集。

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132663428
今日推荐