LLM Benchmarks - 评估方法套件

LLM Benchmarks - 评估方法套件

常用 LLM 基准:

  • ARC 是一套小学问题。
  • HellaSwag 是对常识的测试。
  • MMLU 是一种多任务指标,涵盖初等数学、美国历史、计算机科学、法律等内容。
  • TruthfulQA 衡量一个模型复制网上常见虚假信息的倾向。

猜你喜欢

转载自blog.csdn.net/engchina/article/details/132482687