论文解读：Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation

一、动机

Knowledge-intensive任务通常需要借助外部的资源来回答问题，此时需要有一个retrieve模型来完成外部知识的检索；
最近大模型（例如ChatGPT）可以解决此类问题，其在大量的文档数据上进行过预训练，并将大量的知识学习在参数里；
然而现有的大模型依然存在一个未知的问题，即大模型是否有能力察觉到他们事实知识认知边界；
本文则致力于研究检索式增强对于大模型生成能力的影响进行分析。主要关注三个问题：大模型察觉到它的事实知识边界程度、检索增强对大模型生成有什么影响、具有不同特征的辅助文档如何影响LLM。

二、问题定义

开放域问答中，给定一个问题 $q$ 以及一个文档库 $\mathcal{D}=\{d_i\}_{i=1}^m$ ，目标是给定一个回答 $a$ 。
先前的方法是通过一个retriever检索文档库，并获得与问题相关的文档，随后使用机器阅读理解的方式回答问题。大模型可以直接利用模型本身的知识来回答问题，免于使用外部知识，即有： $a=f_{LLM}(p, q)$ ，其中 $p$ 表示prompt。
如果使用检索增强的方式，则为 $a=f_{LLM}(p, q, \mathcal{L})$ ，其中 $\mathcal{L}$ 表示检索得到的support document。

为了能够探测大模型的知识，需要先设计指令来让大模型完成相应的测试任务。

Instruction设计

（1）QA模式
提出两种类型：

Normal Setting：即知让大模型根据参数知识来回答问题。指令如下所示：

Answer the following question based on your internal knowledge with one or few words. · · ·

检索式：让大模型结合参数内的知识和检索到的外部知识一起进行回答。指令如下所示：

Given the following information: · · · Answer the following question based on the given information or your internal knowledge with one or few words without the source. · · ·

（2）判别模式
另一种方法则是让大模型去做判定。也存在两种模式：

Priori judgement：在大模型做出回答之前，先让其判断是否能够回答该问题。指令如下所示：

Are you sure to accurately answer the following question based on your internal knowledge, if yes, you should give a short answer with one or few words, if no, you should answer ‘Unknown’. · · · ”

Posterior judgement：在大模型回答之后，再让大模型来判断自己生成的结果是否准确。指令如下所示：

Can you judge if the following answer about the question is correct based on your internal knowl-edge, if yes, you should answer True or False, if no, you should answer ‘Unknown’. · · · ”

三、实验

数据集

Natural Question、TriviaQA、HotpotQA

评价指标

QA模式：EM、F1
判别模式：

Give-up：大模型放弃回答的问题的占比，可以估算为大模型回答的置信度；
Right/G：大模型放弃回答，但实际上能够正确回答的概率；
Right/NotG：大模型没有放弃回答，且实际上能够正确回答的概率；
Eval-Right：大模型评估其回答是正确的问题的比例；
Eval-ACC：大模型对答案的评估（正确或错误）与事实相符的问题的百分比。

检索器

采用下面三种进行检索：

ChatGPT表示使用ChatGPT插件来检索相关的文档。

模型

对比text-davinci-003和gpt3.5-turbo

实验与结论

（1）大模型本身很难知道自己的知识边界，且会过度自信。

（2）LLM无法充分利用自己所拥有的知识，而检索增强可以作为LLM的宝贵知识补充。

可以知道当用高质量的文档检索器后，大模型的放弃回答的比例下降了很多，说明给定外部知识大模型是可以有效回答问题的。
（3）检索增强提高了大模型感知事实知识边界的能力。
如上表可知给定检索的知识，大模型priori judgement的准确率很高。
（4）更多的文档可以进一步提高检索增强大模型的性能。

当检索的文档越多时，EM指标会呈现上升趋势，Given Up率也会下降很多。
（5）检索增强可以改变大模型对不同查询类别的偏好。

（6）当提供更高质量的检索文档时，大模型可以表现出很强的质量保证能力和知识边界感知能力。

当检索的文档是准确时（Golden），其不论是EM、F1指标，还是Eval-Acc、Eval-Right都很高，说明高质量的检索文档可以提升模型的知识边界感知能力的。
（7）大模型会依赖于检索到的文档。
（8）大模型对检索到的文档的置信度和依赖程度取决于问题和文档之间的相关性。
上表中的几个检索方式的对应Question与检索文档的相关性排序为：golden doc- uments > retrieved documents > highly-related incorrect documents > weakly-related incorrect documents > random incorrect documents.
可知EM、F1等指标也几乎呈现此顺序。