[visual dialog相关论文阅读]Two Causal Principles for Improving Visual Dialog

在这里插入图片描述

我们认真检查了模型和数据之间的因果关系

1.我们应该移除对话历史直接输入到答案模型,不然可能会有有害的偏见
2.历史,问题和答案是一个不可观察的混杂因素,导致训练数据存在虚假的相关性
我们提出了几种因果干预的算法

1.介绍

我们引入了因果推理 图结构 站在数据的原因-影响解释上,不仅仅是统计联系。贡献:提出了两个原则
在这里插入图片描述
过去模型图和作者提出模型图的区别 连接线可以看作是模态变换
在这里插入图片描述

P1显示我们应该移除对话历史的直接输入,因为建造者不允许从过去的问答对里面复制,所以H不能推到A。但是建造者鼓励连续的问题中包含推断代词 如it those,所以H可以推到Q。所以回答只能基于问题Q和理性的视觉知识。所以模型应该从在I H语境中的Q进行推断,而不是记住偏见

H到A的直接推断会污染因果关系 比如模型选择与之前历史答案相似长度的答案

P2意味着仅基于(I,H,Q)与A之间的关联进行模型训练是虚假的。i, h, q对a的影响 是通过一个不能观测的变量u混合在一起。u相当于人类的偏好。训练的时候,如果我们仅关注于P(A|I,H, Q),模型不可避免的会被虚假的因果关系误导

  • 比如模型在回答时yes, he is的分数比yes高,因为人类user想要在答案中出现he,根据历史语境中的he

注意,在visdial中的混淆u比vqa更强,因为visdial鼓励使用者主观的排列更多相似的答案,而vqa更加客观。一个可能的解释是:visdial本质是交互的,一次不太正确的答案在一次迭代中可以容忍,但vqa只有一次机会

P1 P2的应用 提出了一个因果关系推断图。为了移除由u引起的虚假的影响,使用了do-calculus P (A|do(I,H, Q)),这是一种主动的干预。切断u->q, h->q,并采样每种可能的u|h,寻找i,h,q给a带来的真正的影响。特别的,一旦数据集准备好了,u就不能再被观察到。

我们在数据集上验证了两条规则的有效性,在四种基础模型上都有很大的提升

3.在因果图中的视觉对话

3.2 因果图 编码器-解码器结构

因果图

描述了每个变量是如何与其他作用的,A->B表示A是原因,B是结果

解码器中的特征表示和注意力

V是使用faster-rcnn提取特征,语言特征首先通过embeding,然后通过rnn得到问题和历史的特征。现在有一些方法引入了注意力机制来对特征加以一些权重
{I → V, Q → V,H → Q → V}

解码器中的回答生成

{H→A,Q→A,V→A}

4.两个因果规则

4.1 规则1

例子:著名的研究人员R,高质量的文章P,接收A 我们知道r->p, p->a 但是我们要阻止r->a 以免出现一些偏见 所以提出了双盲实验。所以,在视觉对话中,h引导q得到一些指代词的含义,然后q作为一个中间者,得到回答。实现P(A|Q,H) = P(A|Q)

4.2 规则2

在因果图中,如图3a,往往包含了一个混杂量u,这是q,a共同的原因,U开辟了一个后门,导致即使q a之间没有直接的因果,还是会虚假的相关。
在这里插入图片描述

在生成视觉对话数据集的过程中,不仅回答者和提问者能够看到对话历史,回答标注者也可以看到,他们在看了历史后的偏好可以被视为人性和对话语境的微妙之处,所以他在q a上有着共同的因果影响。因为这种偏好很微小且不能控制,我们将它看作不可观测的混杂项

这个混杂项会阻碍我们找到真正的因果影响,比如图3b,从q到a的因果影响是0,但P(A|Q) − P(A)不等于0,因为q a都被u影响。如果我们有q,则与什么都没有相比,a的似然改变非常的敏感。

所以,即使我们用P(A|Q) 作为模型,它仍然会预测一些没有意义的回答,即使问题和该回答毫不相关。例,即使没有给定q,模型还是更加青睐包含he的回答。接下来,我们将要介绍让q a独立的技术

4.3 do calculus

do(Q = q) 指我们故意将q值分配给变量Q,而不是被动的观察Q = q。如图3c,do(Q = q) 指去掉所有指向Q的箭头,让Q和U独立。

在这里插入图片描述

这与贝叶斯规则不同

在这里插入图片描述

因为独立性,所以P(u|Q = q) = P(u)。这样图3b中的P(A|Q) − P(A)=0。所以我们的正式模型中,do(Q = q,H = h, I = i) 也可写作do(Q, H, I)。按照图1,则公式如下

在这里插入图片描述

5.改进视觉对话模型

因为u是不能观察到的,所以我们使用了近似将公式1重写为
在这里插入图片描述
其中Pu(A) := P(A|Q,H, I, u)

5.1 问题类型

因为我们不能直接采样u,所以我们使用了第i个候选答案作为u的代表。因为ai是使用者u在建立数据集的时候观测到的句子。所以将公式2变为

在这里插入图片描述

使用p(ai|QT)来近似p(ai|h) 原因:1. P(ai|H)基础的描述了一种有关ai的先验知识,相似的场景是,如果我们知道了问题类型(QT),比如’what color’,则有关颜色的候选答案就会有更高的分数,甚至不去看问题的细节。2. QT从问题Q中提取的到,表明QT部分揭示了H。在实践中,我们手动的定义了一些问题类型,每一种有一个回答的频率。对每一轮对话,每个候选答案有一个标准化的分数,这个分数将会被qt问题类型下ai的频率进行计算

在这里插入图片描述

Pi(A) = softmax(fs(ei,m)) fs是一个相似度方程,ei是候选答案ai的的embedding,m是q,i,h的联合embedding,如图3d。因为问题类型可以被Q观测到,所以p(ai|QT)削弱了公式1先验假设的后门 即,先验p(u|H)不能以Q为条件。 因为QT只是Q的一小部分,所以作为近似是合理的

5.2 回答分数采样

由于问题类型的实现会稍微削弱后门调整,因此我们将引入更好的近似值,该近似值直接从u采样。这也叫做密集微调。
我们仍然使用ai来近似u,并使用人类标注的归一化后的ndcg分数si。si直接的显示了人类在H语境下对ai的偏好。因此 如图3e
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_45347185/article/details/115336296