【文献阅读】PQA——感知问答的数据集和方法(Y. Qi等人,CVPR,2021)

一、背景

文章题目:《PQA: Perceptual Question Answering

文章下载地址https://arxiv.org/pdf/2104.03589.pdf

文章引用格式:Yonggang Qi, Kai Zhang, Aneeshan Sain, Yi-Zhe Song. "PQA: Perceptual Question Answering." In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021

项目地址:暂无

二、文章导读

Perceptual organization remains one of the very few established theories on the human visual system. It underpinned many pre-deep seminal works on segmentation and detection, yet research has seen a rapid decline since the preferential shift to learning deep models. Of the limited attempts, most aimed at interpreting complex visual scenes using perceptual organizational rules. This has however been proven to be sub-optimal, since models were unable to effectively capture the visual complexity in real-world imagery. In this paper, we rejuvenate the study of perceptual organization, by advocating two positional changes: (i) we examine purposefully generated synthetic data, instead of complex real imagery, and (ii) we ask machines to synthesize novel perceptually-valid patterns, instead of explaining existing data. Our overall answer lies with the introduction of a novel visual challenge – the challenge of perceptual question answering (PQA). Upon observing example perceptual question-answer pairs, the goal for PQA is to solve similar questions by generating answers entirely from scratch (see Figure 1). Our first contribution is therefore the first dataset of perceptual question-answer pairs, each generated specifically for a particular Gestalt principle. We then borrow insights from human psychology to design an agent that casts perceptual organization as a self-attention problem, where a proposed grid-to-grid mapping network directly generates answer patterns from scratch. Experiments show our agent to outperform a selection of naive and strong baselines. A human study however indicates that ours uses astronomically more data to learn when compared to an average human, necessitating future research (with or without our dataset).

感知结构在深度学习工作之前,支撑了许多分割和检测方面的工作,但是自从研究转向深度学习后,它的研究便变得很少。在少量的一些尝试中,大部分工作都旨在用感知结构规则揭示复杂的视觉场景。然而,模型不能捕捉真实世界图像中的视觉复杂性,它已被证明是次优的。在本文中,我们建议改变两处,来更新感知结构,具体为:(1)生成合成数据来代替复杂场景。(2)合成新的感知有效的模式,替代解释现有数据。我们的目的在于介绍一种新的视觉挑战,感知问答PQA。通过观测感知问答,PQA则需要完全生成答案以解决类似的问题。我们的第一个贡献,则是感知问答数据集。其中每一个问答数据都是基于Gestalt原则生成的。其次,借鉴人类心理学,设计一个agent,它将感知结构视为一个自注意力问题,即提出一个从格网到格网的映射网络,来直接生成答案。实验结果表明,该方法比大多数朴素的baselines的表现更优,但由于涉及到了更多的数据来学习,因此未来还需要做进一步研究。

三、文章介绍

计算机视觉的最终目标,是模仿人类的视觉系统。机器视觉初期的理论依据主要是视觉感知,感知结构现在在目标分割,轮廓探测,以及形状解析中都获得了非常好的效果。但自从引入深度学习之后,感知结构的研究就较少了。感知结构可以归纳为(boils down to)有限集和规则(called Gestalt),它能共同指导我们的视觉推理。然而现有模型都只能有限的表示感知结构的复杂潜在机制。

本文则重新研究了感知结构,不同于之前的仅仅使用Gestalt规则的感知结构,本文做出了以下改动:(1)针对每个Gestalt规则来合成数据。(2)对于未知问题来生成答案。我们将这些设计封装成一个新的感知结构挑战,即感知问答(PQA)。即需要通过观察PQA数据,agent需要生成答案来解决相似的问题,具体如下图所示:

本研究的主要贡献如下:

(i) we rejuvenate the study of perceptual organization through a novel challenge of perceptual question answering, 通过PQA重新研究了感知结构

(ii) we propose the first dataset specifically targeting PQA, where each question-answer pair is specific to a particular Gestalt principle, 提出了一个PQA数据集,其中的每一个数据都是基于Gestalt原理做的

(iii) we formulate perceptual organization via a self-attention mechanism, and propose a grid-to-grid mapping network which is able to directly generate answer-grid from scratch,  通过自注意力机制来表达感知结构,提出了格网到格网的映射网络,以从脚本直接生成答案的网格

(iv) we show our model to outperform a few baselines re-purposed for PQA, yet a human study shows that ours uses significantly more data to learn, when compared with an average human. 我们的模型在PQA的表现上比其他的一些baselines表现更好。

1. 相关工作

抽象推理(Abstract Reasoning):很多工作都在研究如何让机器学习人脑,具有抽象推理的能力。通常,一般对于问答,候选答案都是作为分类问题来对待的,比如PGM和RAVEN。相反的是,现在提出了抽象推理语料库(Abstract and Reasoning Corpus (ARC)),它需要一些客观事实来生成答案。与此相似,本文则尝试解决一种新的视觉推理挑战,它是基于感知结构,以生成答案的形式来完成这个任务。本文就是以基于Gestalt规则的格网问题,使用感知结构来生成相应的格网答案。

感知问答数据集(Perceptual Question-Answering Dataset):一般来说都是使用的合成数据来做,因为它的参数和输出可控,且便于评估。一些现有的工作包括Pathfinder,cluttered ABC (cABC)。然而,现有的数据集并没有明确基于Gestalt规则来设计以评估感知结构的。因此本文则提出了这个新的数据集。

感知集群(Perceptual Grouping):人类可以感知模式和局部的结构,并将它们构成一个有意义的目标。这个现象被称为感知集群(perceptual grouping)或者感知结构(perceptual organization)。Wertheimer Max这个人提出的Gestalt理论是一系列视觉应用的核心,比如轮廓集群,目标检测,图像分割。然而,一些感知集群仍然是不清楚的,比如如何建模,如何准确评估Gestalt规则。因此本文的工作就是尝试更好的让答案来理解Gestalt规则,便建立了PQA数据集。

2. PQA数据集

本节基于Gestalt规则构建PQA数据集。

(1)元规则和相关任务(Meta Gestalt Laws and Resulting Tasks)

常用的Gestalt法则有7个,将其作为元规则:闭合closure, 连接continuity connection, 近似proximity, 形状重构shape reconstruction, 形状和模式相似度shape and pattern similarity, 对称映射reflection symmetry and 旋转对称rotation symmetry。由此产生的task则入下表所示:

具体包括:T1: Closure Filling闭合填充;T2: Continuity Connection连续连接;T3: Proximity Identification近似识别;T4: Shape Reconstruction形状重构;T5: Shape Matching & Pattern Generalization形状匹配和模式归纳;T6: Reflection-Symmetry Completion反射对称;T7: Rotation-Symmetry Completion旋转对称。

(2)数据格式(Data format)

一个数据为一个元组,包括q和a。每个q和a都是w*h大小,其中每个位置上为一个颜色,一共包含10种颜色。

(3)数据合成(Data Synthesis)

首先生成一个空白的格网grid canvas。然后依据Gestalt规则,生成一个答案。最后再依据相应的Gestalt规则,改变相应的答案格网,即替换或者删除部分元素,得到问题格网。下图即为生成T1相应数据的过程:

首先建立一个格网,然后随机初始选择一个位置,这个位置沿着周围4个方向任意向竖直或者水平方向扩张,迭代k次构成一个答案格网。移除内部元素即可生成问题格网。最终,每个任务都要100k个数据,

(4)上下文PQA和测试问题(Context PQA pair and Test Question)

在建立模型之前,还需要一个上下文PQA和测试问题,依据上下文PQA,模型可以推测出相应的Gestalt law。然后进一步检测生成的答案是否与相依测试问题一致。这么做可以检测模型的两个能力,即抽象推理能力和泛化能力。

(5)统计分析(Statistical Analysis)

统计结果先看下表:

其中,Symbols表示涉及到的颜色数量,Slots表示需要修改百分之多少的格网才能得到正确答案。另一项统计结果如下图所示:

其中,左图说明了关键区域主要位于格网的中间,右图说明了不同格网的大小,生成问题和答案的难度不同。

3. 方法

本文提出了基于Transformer的生成模型(Transformer-based generative model)来学习感知抽象推理。目标就是根据未知任务类型的问题格网,来生成相应的答案格网,在这个过程中会提供一组QA上下文样本,来供模型学习相应的Gestalt法则。

(1)网络结构

网络结构如下图所示:

模型的输入有三个源,测试问题test question,上下文嵌入context embedding,位置编码positional encoding。具体各个部分的介绍如下文所述:

(2)编码器和解码器

编码器:和transformer的结构一致,用了N个叠加的判别层,每个判别层都包含了multi-head self-attention (MHA)和a feed-forward network (FFN).其中单个自注意力模块single-head self-attention (SHA)module可以表示为:

其他部分的定义则如下:

解码器:解码器也是用了N个叠加的判别层,每个判别层包含3个子层,即2 MHA sub-layers followed by 1 FFN。

(3)输入表示

符号嵌入Symbolic embedding:10种颜色,记为0-9.因此可以将格网中的颜色嵌入为向量:

位置嵌入Positional embedding:位置嵌入对于任务推理特别重要,而格网是一个非连续数据,因此这里考虑使用正弦和余弦变换:

(4)上下文嵌入

上一步得到了问题和答案的symbolic embedding,这里将其进行连接,然后传入context encoder,生成一个隐表示,来作为最终的上下文嵌入。

(5)目标函数

这里用的负对数似然损失:

4. 实验

(1)实验结果

基于PQA数据集不同方法的量化结果如下表,可以看到作者提出的方法获得了最高的精度:

下图则表示了训练数据集的多少也会影响模型的精度:

下表的比较说明了人类只能学习task-specific的有限的规则:

一些失败的样本则如下图所示:

(2)消融实验

消融实验的结果如下表所示:

最后是对位置信息注意力的可视化:

四、小结

猜你喜欢

转载自blog.csdn.net/z704630835/article/details/115538711