一、论文简述

1. 第一作者：Haofei Xu

2. 发表年份：2022

3. 发表期刊：AAAI

4. 关键词：光流、图神经网络、自适应

5. 探索动机：现有光流估计方法主要解决基于特征相似性的匹配问题，少有工作研究如何显式推理场景中各部分的运动情况。

6. 工作目标：本文从一个新的角度提出基于图模型的方法，充分利用场景(上下文)信息对光流估计进行引导推理。

7. 核心思想：本文提出利用自适应图推理的光流估计模型(AGFlow)，采用了一种适应性学习机制，使得图模型能够利用场景特征节点之间的关系信息来引导运动特征节点进行关系推理和信息交互，关键思想是将上下文推理从匹配过程中分离出来，并利用场景信息通过学习对自适应图进行推理来有效地辅助运动估计。

A novel graph-based approach for optical flow. To our knowledge, this is the first work that explicitly exploits scene information to assist in optical flow estimation by using graph techniques. The proposed AGFlow can go beyond the regular grids and reason over the graph space to achieve a better motion understanding, thus successfully handling different challenges in optical flow.

An adaptive cross-domain graph reasoning approach. In order to incorporate scene information, we generalize the learning to adapt mechanism from regular grids to the graph domain. Our designed graph adapter can fast adapt scene context to guide the global (motion) graph reasoning in a one-shot manner.

8. 实验结果：还行吧

The proposed AGFlow can effectively exploit the context information and incorporate it within the matching procedure, producing more robust and accurate results. On both Sintel clean and final passes, our AGFlow achieves the best accuracy with EPE of 1.43 and 2.47 pixels, outperforming state-of-the-art approaches by 11.2% and 13.6%, respectively.

9.论文&代码下载：

https://github.com/ megvii-research/AGFlow

https://arxiv.org/pdf/2202.03857.pdf

二、实现过程

1. 问题公式化

给定一对连续的输入图像，即源图像I1和目标图像I2，光流估计的任务是预测源图像I1和目标图像I2之间的密集位移场。基于深度学习的光流网络通常采用编码器-解码器管道，首先提取上下文特征fc，获得运动线索fm，然后基于融合特征fo，以循环/粗到细的方式进行光流预测。

在AGFlow中，将解码器中的特征融合表示为基于图的推理和学习模型，其表述为fo = F(fc,fm)。具体来说，将模型定义为有向图G=(V,E)，其中V表示节点集合，E表示边，G表示节点之间的连接和关系信息。运行t次图推理后，将更新后的节点映射回原始坐标空间，以预测位移场。

2. 光流的自适应图推理

上图描述了AGFlow用于光流的自适应图推理的概述。“4D CV”表示4D相关体，“C”表示连接，“L”表示加和。AGFlow基于RAFT开发。具体来说，给定一对输入图像I1和I2，使用两个基于残差块的编码器来提取特征对(f1, f2)和上下文特性fc。然后在特征对上构造4个尺度的4D相关体。在循环改进框架中，利用四次卷积在多尺度匹配代价中从9×9区域捕获运动特征fm。然后，自适应图推理(AGR)模块以运动特征fm和上下文特征fc为输入，进行整体的运动推理。

节点嵌入。第一步是将规则坐标空间中的上下文和运动特征投影到图空间中。投影运算将位置信息与原始网格特征解耦，使生成的低维节点特征表示更紧凑，表达能力更强。这里我们将图模型中映射的节点V分为两组:上下文节点vc = Vc1,···,Vcn，包含关于形状的外观特征和场景上下文的区域信息，运动节点vm = Vm1,···,Vm，存储交叉图像匹配依赖的运动特征。

具体来说，给定来自编码器网络的上下文特征fc∈c×h×w和运动特征fm∈c×h×w，采用投影函数Pf→v(·)将表示相似的特征分配给同一节点。设vc∈C×K和vm∈C×K表示图空间中的初始节点嵌入，其中C表示通道号，K为节点数。

为了在一组区域上构建一个全局图，在网格空间中制定Pf→v(·)作为特征向量的线性组合，即v = Pf→v(f)，因此生成的节点能够在整体原始特征图中聚合远距离信息。这是由

其中N(·)是对每个节点向量的通道维数进行的L-2归一化函数，Ff→v(f) ∈N×K将特征图映射到节点向量的投影权重建模。该方法可以用任意输入分辨率进行训练。在实践中，首先在f∈c×h×w上使用两次卷积将信道维度从c更改为K，从而得到分辨率为K×h×w特征图。然后应用重塑函数得到分辨率为N×K的Ff→v(f)，其中N = h×w, K是不依赖于空间分辨率的超参数。因此，两种类型的节点嵌入可以由vc=Pf→v(fc)和vm=Pf→v(fm)产生。

自适应图推理。给定图空间中的节点嵌入v，用于图推理的邻接矩阵通常可以通过测量所有节点向量之间的相似性来生成，如A=vTv。对邻接矩阵A建模后，用图卷积网络进行图推理定义为

其中σ(·)是一个非线性激活函数，wG是图卷积的可学习参数。v^是用图推理更新的节点表示，它可以迭代增强，通过更多的运行v^(t) = FG(v,A)(t)，其中t表示更新迭代。

让我们考虑上下文节点和运动节点的表示属性。运动节点主要编码图像对之间的点的对应关系，而忽略了区域内像素之间的内部关系，而上下文节点则获得区域和形状表示的具有可分辨性的特征。因此，我们需要解决两个障碍:首先，上下文节点和运动节点之间存在不可避免的表示差距，这可能会阻碍直接整体图推理的有效信息传播。其次，运动节点缺乏对潜在位移场的形状或布局的约束，因此它们无法为单个图推理提供足够的上下文信息。

为了解决这一问题，提出了一种自适应图推理(AGR)模块，将上下文推理与匹配过程解耦，同时将场景上下文的区域和形状先验一次性转移到运动节点。关键思想是在全局上下文中利用形状和区域有判别性的表示指导具有自适应参数的运动邻接矩阵的学习。因此设计了一种邻接矩阵的自适应算法，以学习预测动态参数，根据特定于图像的上下文信息定制运动关系建模。

这是由

其中Θ(·)是一个参数学习器，A(·)表示一个配备了Θ(vc)的动态权重的上下文到运动图自适应器(GA)。在实践中，实现了Θ(·)，具有softmax激活的线性投影函数。如下图所示，采用两层MLP实现A(·)，其中应用第一个正则化线性函数和ReLU激活执行通道的学习，然后使用第二个具有自适应核Θ(vc)的线性函数执行节点交互，进行上下文-动作自适应关系学习。具体来说，给定上下文节点vc∈C×K，预测了自适应核Θ(vc)∈K×K在通道维度上卷积(C→K)，然后转化为第二个线性函数的K × K形自适应权值，用于生成vm`。最后，在m`上进行点积相似度来预测A˘。

生成的参数Θ(vc)依赖于上下文节点来动态利用当前输入的形状和区域信息。这样，运动节点可以快速适应场景上下文，很好地利用转移的节点关系进行运动子图推理。因此，增强的上下文节点v^c(t)由

类似地，运动节点v^m(t)由

FAG(·)表示用自适应图卷积网络(AGCN)进行运动节点推理。

注意力读出。经过t次关系推理和状态更新后，提出了一个注意力读出模块，将增强的上下文节点vc(t)和运动节点v^m(t)从图空间投影回网格特征空间，使整体图交互模型与现有光流网络兼容。更新后的特征图既包含全局上下文信息，又包含局部像素级匹配代价，可以更好地预测光流场。将反投影表述为

其中Pv→f(·)是一个线性组合函数，将节点向量v^∈C×K映射到光流网络原始网格空间中的特征图f^∈C×N。在实际应用中，我们在节点嵌入过程中重用投影矩阵。投影矩阵包含像素到节点的分配，并保留空间细节，这对于恢复特征图的分辨率至关重要。此外，通过重用区域分配不涉及额外的参数，这也有助于减少计算开销。

上下文特征^fc由残差操作产生