本文是LLM系列的文章，针对《Enabling Large Language Models to Generate Text with Citations》的翻译。

使大语言模型能够生成带有引用的文本

摘要
1 引言
2 任务设置和数据集
3 自动评估
4 建模
5 实验
6 人类评估
7 相关工作
8 结论
不足

摘要

大型语言模型（LLM）已成为一种广泛使用的信息搜索工具，但其生成的输出容易产生幻觉。在这项工作中，我们的目标是使LLM能够生成带有引用的文本，提高其事实的正确性和可验证性。现有的工作主要依赖于商业搜索引擎和人类评估，这使得复制和比较不同的建模方法具有挑战性。我们提出了ALCE，这是LLM自动引文评估的第一个基准。ALCE收集了一组不同的问题和检索语料库，需要建立端到端的系统来检索支持证据并生成带有引文的答案。我们建立了三个维度的自动指标——流利性、正确性和引用质量——并证明了它们与人类判断的强烈相关性。我们用最先进的LLM和新颖的提示策略进行的实验表明，当前的系统有相当大的改进空间——例如，在ELI5数据集上，即使是最好的模型，其49%的生成都缺乏完整的引用支持。我们的广泛分析进一步突出了有前景的未来方向，包括开发更好的检索器，推进长上下文LLM，以及提高综合来自多个来源的信息的能力。

1 引言

2 任务设置和数据集

3 自动评估

4 建模

5 实验

6 人类评估

7 相关工作

8 结论

我们提出了ALCE，这是第一个用引文评估LLM生成的自动基准。我们部署了自动指标来衡量流利性、正确性和引用质量，并通过人工评估验证其有效性。我们探索了将引文纳入LLM的各种策略，并证明当前的系统在ALCE方面有相当大的改进空间。
我们的实验突出了许多有前景的研究方向，包括（1）增强LLM中的检索和改进检索集成，（2）开发长上下文LLM，以及（3）提高LLM合成多种来源的能力。更有趣的是，这些研究建议超出了ALCE的设置范围（例如，长上下文LLM有许多令人兴奋的应用），ALCE可以作为其开发的宝贵试验台。

不足

我们的评估并非没有缺陷：（1）MAUVE被发现对输出长度敏感，可能会提供不稳定的结果。（2）对于ELI5的正确性评估，由于问题的开放性，自动生成的声明可能无法涵盖所有可能的答案。（3）我们的引文质量评估受到NLI模型准确性的限制；对于引用精度，NLI模型无法检测到“部分支持”的情况，因此导致引用精度得分低于人类评估。
尽管我们相信我们策划的数据集与现实世界用户问题的分布非常相似，但我们也承认，它们没有涵盖更具挑战性的场景，如多跳推理、数学推理和代码完成。
在我们的实验中，我们专注于在不更新LLM模型权重的情况下提示LLM。由于缺乏监督数据，直接训练模型以纳入引文仍然具有挑战性。然而，我们观察到某些人类指令数据集包含与我们的任务设置类似的示例。我们将训练LLM去生成引文的探索留给未来工作。

Enabling Large Language Models to Generate Text with Citations