Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation

物联网 2023-08-22 17:58:48 阅读次数: 0

本文是LLM系列文章，针对《Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation》的翻译。

利用检索增强研究大型语言模型的事实知识边界

摘要
1 引言
2 背景和设置
3 实验分析和发现
4 结论

摘要

知识密集型任务（例如，开放领域问答（QA））需要大量的事实知识，并且经常依赖外部信息来提供帮助。最近，大型语言模型（LLM）（例如，ChatGPT）在用世界知识解决一系列任务方面表现出了令人印象深刻的能力，包括知识密集型任务。然而，目前尚不清楚LLM对其事实知识边界的感知能力，特别是在结合检索增强时的表现。在本研究中，我们对LLM的事实知识边界以及检索增强如何影响开放域QA中的LLM进行了初步分析。特别是，我们关注了三个主要的研究问题，并通过检验LLM的QA性能、先验判断和后验判断对其进行了分析。我们展示的证据表明，LLM对其回答问题的能力和回答的准确性有着坚定不移的信心。此外，检索增强被证明是提高LLM知识边界意识的有效方法，从而提高其判断能力。此外，我们还发现，LLM在制定答案时倾向于依赖所提供的检索结果，而这些结果的质量会显著影响其依赖性。复制此作品的代码可在https://github.com/RUCAIBox/LLM-Knowledge-Boundary。

1 引言

2 背景和设置

3 实验分析和发现

4 结论

在这项工作中，我们研究了LLM在开放领域QA上通过检索增强对事实知识边界的感知能力。详细地，我们提出了先验和后验判断提示，除了QA提示外，还进行了正常和检索增强评估。我们得出了几个关键发现，包括（1）LLM对自己回答问题的能力和回答的质量表现出盲目的信心，表明他们无法准确感知自己的事实知识边界；（2）LLM无法充分利用他们所拥有的知识，并且检索增强的加入有效地提高了他们感知事实知识边界的能力，从而提高了判断能力。（3）LLM在回答问题时往往严重依赖给定的检索结果，而支持文档的特征显著影响了他们的依赖性。根据这些发现，我们还采用了一种简单的方法，该方法基于LLM的先验判断动态地利用检索增强，而不是一致地考虑支持文档，从而提高了性能。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/132325550

Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation

论文解读: 2023-Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval

论文解读：Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentati

开放域问答论文阅读-Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augme

Augmented Large Language Models with Parametric Knowledge Guiding

Trends in Integration of Knowledge and Large Language Models

MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models

Information Retrieval Meets Large Language Models: A Strategic Report from Chinese IR Community

转：Language Models as Knowledge Embeddings

Challenges and Applications of Large Language Models

A Survey of Large Language Models Attribution

Large Language Models in Finance: A Survey

【论文精读】Emergent Abilities of Large Language Models

Are Emergent Abilities of Large Language Models a Mirage?

论文阅读 A Survey of Large Language Models 3

论文阅读 A Survey of Large Language Models 2

论文阅读 A Survey of Large Language Models 1

Enabling Large Language Models to Generate Text with Citations

A Survey on Model Compression for Large Language Models

Recommender Systems in the Era of Large Language Models (LLMs)

TASKBENCH: BENCHMARKING LARGE LANGUAGE MODELS FOR TASK AUTOMATION

A Survey on Multimodal Large Language Models for Autonomous Driving

A Survey of Text Watermarking in the Era of Large Language Models

论文解读：Large Language Models as Analogical Reasoners

HaluEval： A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

Shortcut Learning of Large Language Models in Natural Language Understanding: A Survey，2020

【ICLR 2022】Towards Continual Knowledge Learning of Language Models

chain of thought prompting elicits reasoning in large language models

大模型 LLM 综述, A Survey of Large Language Models

论文阅读：chain of thought Prompting elicits reasoning in large language models

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)