Causal Reasoning and Large Language Models: Opening a New Frontier for Causality

本文是LLM系列文章,针对《Causal Reasoning and Large Language Models:
Opening a New Frontier for Causality》的翻译。
@TOC

摘要

大型语言模型(LLM)的因果能力是一个有重大争议的问题,对LLM在医学、科学、法律和政策等具有社会影响力的领域的使用具有重要意义。考虑到不同类型的因果推理任务之间的区别,以及结构和测量有效性的纠缠威胁,我们进一步理解了LLM及其因果含义。我们发现,基于LLM的方法在多个因果基准上建立了新的最先进的准确性。基于GPT-3.5和4的算法在成对因果发现任务(97%,增加13分)、反事实推理任务(92%,增加20分)和实际因果关系(在小插曲中确定必要和充分原因的准确率为86%)方面优于现有算法。同时,LLM表现出不可预测的故障模式,我们提供了一些技术来解释它们的稳健性。
至关重要的是,LLM在执行这些因果任务的同时,依赖于与非基于LLM的方法不同且互补的知识来源和方法。具体而言,LLM带来了迄今为止被理解为仅限于人类的能力,例如使用收集的知识生成因果图或从自然语言中识别背景因果上下文。我们设想LLM与现有的因果方法一起使用,作为人类领域知识的代理,并减少人类在建立因果分析方面的努力,这是广泛采用因果方法的最大障碍之一。我们还将现有的因果方法视为LLM形式化、验证和交流其推理的有前途的工具,尤其是在高风险的场景中。
我们的实验并不意味着复杂的因果推理已经在LLM中自发出现。然而,在获取关于因果机制的常识和领域知识,并支持自然语言和形式方法之间的翻译方面,LLM为推进因果关系的研究、实践和采用开辟了新的领域。

1 引言

2 背景和前言

3 LLM和因果发现

4 实际因果关系和因果判断的LLM

5 因果关系的新前沿

6 结论

人类领域知识一直是因果分析的核心部分。在本文中,我们研究了大型语言模型的能力,发现LLM可以通过模仿该领域知识来提供价值,这是对大量人工生成的文本进行训练的结果。这种模仿是复杂训练过程的结果,因此它是不可解释的,也不可预测的:LLM可能在某些查询中失败,而在其他查询中成功提供因果推理。值得注意的是,这种错误发生的次数很少:我们的评估发现,平均而言,LLM在图发现和反事实推理方面可以优于最先进的因果算法,并且可以通过仅对自然语言输入进行操作,将因果的必要性和充分性等模糊概念系统化。
从研究的角度来看,这些结果提出的问题比它们回答的问题更多,我们提供了LLM和因果关系交叉点的研究问题列表。同时,由于LLM的能力得到了证明,我们预计LLM对因果分析实践会产生显著影响。我们概述了LLM如何帮助减轻图形发现、效果推理和归因等任务中人类专业知识的负担。LLM的另一个贡献是弥合了基于协方差和逻辑的因果分析之间的差距。通过提供一个灵活的自然语言界面来回答因果查询,LLM可以将因果分析的这两个分支统一起来,并允许无缝跨越两者的分析来回答现实世界的因果问题。

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/132854314