[visual dialog相关论文阅读]Two Causal Principles for Improving Visual Dialog

在这里插入图片描述

我们认真检查了模型和数据之间的因果关系

1.我们应该移除对话历史直接输入到答案模型，不然可能会有有害的偏见
2.历史，问题和答案是一个不可观察的混杂因素，导致训练数据存在虚假的相关性
我们提出了几种因果干预的算法

1.介绍

我们引入了因果推理图结构站在数据的原因-影响解释上，不仅仅是统计联系。贡献：提出了两个原则
在这里插入图片描述
过去模型图和作者提出模型图的区别连接线可以看作是模态变换

P1显示我们应该移除对话历史的直接输入，因为建造者不允许从过去的问答对里面复制，所以H不能推到A。但是建造者鼓励连续的问题中包含推断代词如it those，所以H可以推到Q。所以回答只能基于问题Q和理性的视觉知识。所以模型应该从在I H语境中的Q进行推断，而不是记住偏见

H到A的直接推断会污染因果关系比如模型选择与之前历史答案相似长度的答案

P2意味着仅基于（I，H，Q）与A之间的关联进行模型训练是虚假的。i, h, q对a的影响是通过一个不能观测的变量u混合在一起。u相当于人类的偏好。训练的时候，如果我们仅关注于P(A|I,H, Q)，模型不可避免的会被虚假的因果关系误导

比如模型在回答时yes, he is的分数比yes高，因为人类user想要在答案中出现he，根据历史语境中的he

注意，在visdial中的混淆u比vqa更强，因为visdial鼓励使用者主观的排列更多相似的答案，而vqa更加客观。一个可能的解释是：visdial本质是交互的，一次不太正确的答案在一次迭代中可以容忍，但vqa只有一次机会

P1 P2的应用提出了一个因果关系推断图。为了移除由u引起的虚假的影响，使用了do-calculus P (A|do(I,H, Q))，这是一种主动的干预。切断u->q, h->q，并采样每种可能的u|h，寻找i,h,q给a带来的真正的影响。特别的，一旦数据集准备好了，u就不能再被观察到。

我们在数据集上验证了两条规则的有效性，在四种基础模型上都有很大的提升

3.在因果图中的视觉对话

3.2 因果图编码器-解码器结构

因果图

描述了每个变量是如何与其他作用的，A->B表示A是原因，B是结果

解码器中的特征表示和注意力

V是使用faster-rcnn提取特征，语言特征首先通过embeding，然后通过rnn得到问题和历史的特征。现在有一些方法引入了注意力机制来对特征加以一些权重
{I → V, Q → V,H → Q → V}

解码器中的回答生成

{H→A,Q→A,V→A}

4.两个因果规则

4.1 规则1

例子：著名的研究人员R，高质量的文章P，接收A 我们知道r->p, p->a 但是我们要阻止r->a 以免出现一些偏见所以提出了双盲实验。所以，在视觉对话中，h引导q得到一些指代词的含义，然后q作为一个中间者，得到回答。实现P(A|Q,H) = P(A|Q)

4.2 规则2

在因果图中，如图3a，往往包含了一个混杂量u，这是q,a共同的原因，U开辟了一个后门，导致即使q a之间没有直接的因果，还是会虚假的相关。
在这里插入图片描述

在生成视觉对话数据集的过程中，不仅回答者和提问者能够看到对话历史，回答标注者也可以看到，他们在看了历史后的偏好可以被视为人性和对话语境的微妙之处，所以他在q a上有着共同的因果影响。因为这种偏好很微小且不能控制，我们将它看作不可观测的混杂项

这个混杂项会阻碍我们找到真正的因果影响，比如图3b，从q到a的因果影响是0，但P(A|Q) − P(A)不等于0，因为q a都被u影响。如果我们有q，则与什么都没有相比，a的似然改变非常的敏感。

所以，即使我们用P(A|Q) 作为模型，它仍然会预测一些没有意义的回答，即使问题和该回答毫不相关。例，即使没有给定q，模型还是更加青睐包含he的回答。接下来，我们将要介绍让q a独立的技术

4.3 do calculus

do(Q = q) 指我们故意将q值分配给变量Q，而不是被动的观察Q = q。如图3c，do(Q = q) 指去掉所有指向Q的箭头，让Q和U独立。

在这里插入图片描述

这与贝叶斯规则不同

在这里插入图片描述

因为独立性，所以P(u|Q = q) = P(u)。这样图3b中的P(A|Q) − P(A)=0。所以我们的正式模型中，do(Q = q,H = h, I = i) 也可写作do(Q, H, I)。按照图1，则公式如下

在这里插入图片描述

5.改进视觉对话模型

因为u是不能观察到的，所以我们使用了近似将公式1重写为
在这里插入图片描述
其中Pu(A) := P(A|Q,H, I, u)

5.1 问题类型

因为我们不能直接采样u，所以我们使用了第i个候选答案作为u的代表。因为ai是使用者u在建立数据集的时候观测到的句子。所以将公式2变为

在这里插入图片描述

使用p(ai|QT)来近似p(ai|h) 原因：1. P(ai|H)基础的描述了一种有关ai的先验知识，相似的场景是，如果我们知道了问题类型（QT），比如’what color’，则有关颜色的候选答案就会有更高的分数，甚至不去看问题的细节。2. QT从问题Q中提取的到，表明QT部分揭示了H。在实践中，我们手动的定义了一些问题类型，每一种有一个回答的频率。对每一轮对话，每个候选答案有一个标准化的分数，这个分数将会被qt问题类型下ai的频率进行计算

在这里插入图片描述

Pi(A) = softmax(fs(ei,m)) fs是一个相似度方程，ei是候选答案ai的的embedding，m是q,i,h的联合embedding，如图3d。因为问题类型可以被Q观测到，所以p(ai|QT)削弱了公式1先验假设的后门即，先验p(u|H)不能以Q为条件。因为QT只是Q的一小部分，所以作为近似是合理的

5.2 回答分数采样

由于问题类型的实现会稍微削弱后门调整，因此我们将引入更好的近似值，该近似值直接从u采样。这也叫做密集微调。
我们仍然使用ai来近似u，并使用人类标注的归一化后的ndcg分数si。si直接的显示了人类在H语境下对ai的偏好。因此如图3e
在这里插入图片描述