《因果学习周刊》第4期:因果发现方法

关于周刊
因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第4期《因果学习周刊》。
发现一组变量之间的因果结构是因果学习中的一个基本问题,旨在理解数据生成的因果机制。在各种科学和工业场景中,这也是一项至关重要的任务,在生物学、卫生保健和经济学等许多领域有着重要的应用,对于算法可解释性、稳定性和公平性的研究也有着重要的作用。在因果发现中,学习到的因果图的形式为有向无环图(DAG),一种有效的方法是进行随机对照实验,但在某些领域,如社会科学和生物信息学等,随机对照试验是昂贵甚至不可能的,因此,开发新的因果发现方法仍然是机器学习和统计学的核心挑战。本期主要介绍了因果结构发现相关的方法,主要为近些年以NO TEARS算法为首的将因果发现问题转化为连续优化问题的一些方法,使得现有的机器学习方法可以更好的被用来发现数据中的因果结构。
本期贡献者:刘家硕
文章来源:智源社区

论文推荐

标题:Annals of Statistics | CAM: Causal additive models, high-dimensional order search and penalized regression
简介:我们研究了对于高维加法结构方程模型的估计。我们方法的一个关键组成部分是在一个编码因果结构的有向无环图中,从特征或边选择的变量之间解耦顺序搜索。我们证明前者可以用非正则的极大似然估计完成,而后者可以使用稀疏回归技术有效地解决。因此,我们本质上简化了一类重要因果模型的结构搜索和估计问题。我们建立了低维和高维场景的(受限)最大似然估计的一致性,并且我们也允许对于误差分布的估计偏差。在此基础上,我们提出了一种处理多变量的高效计算方法,并通过仿真和实际数据验证了该方法的准确性和性能。
推荐理由:本文提出了高效的算法来进行因果结构的估计,对后续的研究有着很大的启发作用。
论文地址:https://www.aminer.cn/pub/53e9b732b7602d97042cc7fd?f=cs

标题:NeurIPS2018 | DAGs with NO TEARS: Continuous Optimization for Structure Learning
简介:估计有向无环图(DAG,也称为贝叶斯网络)的结构是一个具有挑战性的问题,因为DAG的搜索空间是组合的,并且随着节点数量的超指数扩展。现有的方法依赖于各种局部启发式来加强非循环性约束。在本文中,我们引入了一个完全不同的策略: 我们将结构学习问题表述为一个在实矩阵上的连续优化问题,它完全避免了这种组合约束。这是通过对非循环的一种新颖的描述实现的,这种描述不仅平滑而且准确。由此产生的问题可以用标准的数值算法有效地解决,也使实现毫不费力。该方法优于现有的方法,不需要在图上强加任何结构假设,如有界树的宽度或程度。
推荐理由:本文创新性地提出了对于有向无环图约束的连续正则项(DAG约束),由此启发了后续一系列的相关研究工作,使得causal discovery可以做到更大规模的数据中,并显著提升了优化效率。
论文地址:https://www.aminer.cn/pub/5c2348ceda562935fc1d58d2?f=cs

标题:ICML2019 | DAG-GNN: DAG Structure Learning with Graph Neural Networks
简介:由于搜索空间规模为节点数的超指数量级,从联合分布的样本中学习可靠有向无环图是一个具有挑战性的组合问题。最近的一项突破将该问题表述为具有结构约束的连续优化,以确保无循环性(Zheng et al., 2018)。作者应用了线性结构方程模型(SEM)和最小二乘损失函数的方法,这些方法在统计上得到了很好的证明,但仍然是有限的。由于深度学习的广泛成功,能够捕获复杂的非线性映射,在这项工作中,我们提出了一个深度生成模型,并应用结构约束的变体来学习有向无环图。生成模型的核心是一个变分自编码器,它由一种新的图神经网络结构参数化,我们称之为DAG-GNN。除了更丰富的容量外,所提出的模型的一个优点是它自然地处理离散变量和向量值变量。我们证明,在合成数据集上,提出的方法对非线性生成的样本可以学习到更精确的图; 在带有离散变量的基准数据集上,学习到的图接近于全局最优。
推荐理由:本文利用DAG约束,使用深度模型来学习因果结果,具有很强的启发意义和应用价值。
论文地址:https://www.aminer.cn/pub/5cede10eda562983788ee6a1?f=cs
代码地址:https:// github.com/fishmoon1234/DAG-GNN

标题:AISTATS2020 | Learning Sparse Nonparametric DAGs
简介:我们开发了一个从数据中学习稀疏非参数化的有向无环图(DAG)的框架。我们的方法是基于最近DAG的代数约束,使得基于分数学习的DAG模型过程变得连续化。通过利用基于偏导数的非参数稀疏性,我们将这种代数表征扩展到非参数化的结构方程模型,从而产生一个可应用于各种非参数和半参数模型的连续优化问题,包括GLM、可加性模型和指数模型等。与需要特定建模选择、损失函数或算法的现有方法不同,我们提出了一个完全通用的框架,可以应用于一般非线性模型(例如,没有附加噪声)、一般可微分损失函数和一般黑盒优化。
推荐理由:本文提出了学习稀疏非参数化的因果结构的方法,具有很强的应用价值和理论价值。
论文地址:https://www.aminer.cn/pub/5d9323f43a55ac8695a9141c?f=cs
代码地址:https://github.com/xunzheng/notears

标题:ICLR2020 | CAUSAL DISCOVERY WITH REINFORCEMENT LEARNING
简介:在一组变量中发现因果结构是许多实证科学的基本问题。传统的基于分数的随机发现方法依赖于各种局部启发来根据预定义的分数函数搜索有向无环图。这些方法,如贪婪等价搜索,在无限样本和一定的模型假设下,可能会有很好的结果,但在实际应用中,由于数据有限且可能违反假设,结果不尽如人意。基于神经组合优化的最新进展,我们建议使用强化学习(RL)来搜索得分最高的DAG。我们的编码器-解码器模型将可观察数据作为输入,并生成用于计算奖励的图邻接矩阵。奖励包含了预定义的分数功能和两个惩罚条款,以强制执行无循环性。与目标是学习策略的典型RL算法不同,我们使用RL作为搜索策略,最终输出的图将是在训练期间生成的所有图中获得最佳回报的图。在合成数据集和真实数据集上进行了实验,实验结果表明,该方法不仅提高了搜索能力,而且在非循环性约束下允许灵活的评分函数。
推荐理由:本文创新性地使用强化学习方法来寻找数据中的因果结构,具有很强的启发意义。
论文地址:https://www.aminer.cn/pub/5d06e489da562926acc4cff0?f=cs

标题:ICLR2020 | GRADIENT-BASED NEURAL DAG LEARNING
简介:我们提出了一种新的基于分数的方法来从观察数据中学习有向无环图(DAG)。我们采用最近提出的连续约束优化公式,以允许使用神经网络的变量之间的非线性关系。此扩展允许更加复杂的建模,同时避免了问题的组合性质。除了将我们的方法与现有的连续优化方法进行比较外,我们还比较了非线性贪婪搜索方法。在合成数据集和真实数据集上,该方法在大多数任务上优于现有的连续方法,在因果推理的重要指标上与现有的贪婪搜索方法相比同样具有竞争力。
推荐理由:本文提出了使用梯度来完成非线性下DAG的发现,方法具有很强的创新性。
论文地址:https://www.aminer.cn/pub/5d04e8fdda56295d08dcfb35?f=cs

标题:KDD2021 | DARING: Differentiable Causal Discovery with Residual Independence
简介:在各种科学和工业情景中,发现一组变量之间的因果结构是一项重要任务。基于数据联合分布中有限个独立同分布的样本点,因果发现是一个具有挑战性的组合问题。近年来结构化因果模型的发展,特别是NOTEARS方法为因果发现提供了一个可微分的优化框架。他们将结构学习问题表述为对观测数据进行最大似然估计(即变量重构)的任务,具有特定的结构约束,如无环性和稀疏性。尽管在可扩展性方面取得了成功,但我们发现,优化这些可微方法的目标并不总是与学习因果图的正确性相一致,特别是当变量在真实数据中携带异构噪声(即不同的噪声类型和噪声方差)时。在本文中,我们证明了它们容易产生错误结构的主要原因是过度重构问题,即变量的噪声被吸收到变量重构过程中,导致变量重构残差之间存在依赖关系,并根据FCM理论提出了结构可识别性问题。为了解决这一问题,我们提出了一种新的可微方法,即以对抗性的方式施加显式的残差独立性约束。仿真和真实数据的大量实验结果表明,本文提出的方法对外部噪声的异质性不敏感,可以显著提高因果发现性能。
推荐理由:本文讲因果语义添加到了因果发现的可导框架之中,具有极强的应用价值与理论意义,有助于这个领域未来的发展。
论文地址:https://www.aminer.cn/pub/60d996c70abde95dc965f53d?f=cs

标题:清华 |Why Stable Learning Works? A Theory of Covariate Shift Generalization
简介:协变量移位泛化是分布外泛化的一个典型例子,它要求对未知的测试分布有良好的性能,而未知测试分布以协变量迁移的形式与训练分布不同。近年来,稳定学习算法在涉及回归算法和深度神经网络的几种学习模型上显示出了处理协变量迁移泛化的有效性。然而,对这种有效性的理论解释仍然缺乏。在本文中,我们进一步对稳定学习算法进行理论分析,将其解释为一个特征选择的过程。我们首先指定一组变量,命名为最小稳定变量集,这是在一般化的常见损失函数下处理协变量移位的最优方案,包括均方损失和二元交叉熵损失。然后我们证明了在理想条件下,稳定学习算法能够识别出该集合中的变量。进一步分析了其渐近性质和误差传播。这些理论阐明了为什么稳定学习适用于协变量偏移泛化问题。
推荐理由:本文从理论上证明了稳定学习算法的有效性,将稳定学习算法与因果推断有机地结合起来,阐明了其中的内在关联,具有极强的理论价值,对于整个领域有着很强的推动作用。
论文地址:https://www.aminer.cn/pub/61834f695244ab9dcb55ce5c?f=cs

活动预告

青源Talk第8期丨因果推断,观察性研究和2021年诺贝尔经济学奖
2021年11月26日,智源社区因果群又将迎来一场干货满满的思想碰撞。北大助理教授苗旺将到智源社区作《因果推断,观察性研究和2021年诺贝尔经济学奖》分享报告,清华副教授、智源青年科学家崔鹏担任报告主持。
报告摘要:诺贝尔经济学奖2021年授予Card, Angrist, 和Imbens,以表彰他们在经济学的实证研究和因果推断方法方面的贡献。三位经济学家获奖的科学背景是观察性数据的因果推断,观察性研究的难题是存在重要的背景变量,即,混杂因素未被观测,导致因果作用无法识别,Card,Angrist和Imbens获得诺贝尔经济学奖的主要成果是使用恰当的工具变量等方法重塑或加深了人们对劳动经济学中一些重要的因果关系的认识,并使用潜在结果模型改进了工具变量方法。这并不是诺贝尔奖第一次颁发给因果推断的研究成果,1989年Haavelmo和2000年Heckman获诺贝尔奖的主要贡献都与因果研究密切相关。Haavelmo将数理统计引入经济学,明确经济学模型如联立方程组的因果意义,为计量经济学做出奠基性的工作,被称为计量经济学之父。Heckman的选择模型对观察性研究处理缺失数据和选择偏差,以及因果推断消除混杂因素影响非常深远。本次青源 Talk 将简要回顾近年诺贝尔经济学奖的科学背景,统计学家在因果推断和缺失数据领域的重要贡献,和一些新的进展,包括我们提出的代理推断方法及其和工具变量方法的联系,以及在非随机缺失数据和回调数据分析方面的工作。

猜你喜欢

转载自blog.csdn.net/AI_Conf/article/details/121619997