论文地址：Iterative Visual Reasoning Beyond Convolutions

0x00 论文简述

我们碰到过很多这样的问题：如果一个物体很小，或者目标很模糊，或者这个物体被遮住一部分，那么我们在做目标检测时，我们现在的算法会忽略这些目标。但是人类可以通过周边的事物以及物体的大致形状推断出这个目标的类型。如图：

上图左上角中的窗户，从左往右第一个窗户，由于被电线杆遮住一部分，变得很难辨认，但是我们可以从后面的窗户去推测出这是一个窗户。我们还可以看到，中间的车中坐着一个人（但是这是经过我们推测出来的），但是图像上很模糊。

这篇文章主要提出了一种空间推理和语义推理的通用框架。算法核心有两个部分构成。

基于空间记忆的局部模块，通过卷积网络进行像素级的局部推理
基于图结构的全局模块，用于全局推理

0x01 局部模块

局部模块中：

空间存储器 $s_i$ ，该模块用于存储先前的并行更新认知。该模块是一个三维张量（高度H，宽度W和深度D=512）
推理模块卷积网络C，由三个3*3的卷积核和两个4096的全连接层组成。

给定一个未更新的图像区域r，先通过特征提取，然后使用双线性插值将其调整为大小（7*7）的方阵h。因为高层的特征是覆盖整个区域的向量，所以我们将这个向量附加到所有位置，通过1*1的卷积核来提取特征，并且输出 $f_r$ 。记忆存储器 $s_i$ 中的相同区域也提取出来，调整为7*7，标记为 $s_r$ 。这一步后，我们使用GRU：

$s_r' = u\circ s_r + (1-u)\circ \sigma(W_f f_r+W_s(z\circ s_r)+b)$

其中， $s_r'$ 是 $r$ 更新后的记忆， $u$ 是更新后的门， $z$ 是重置门， $W_f$ ， $W_s$ 和 $b$ 分别是卷积的权重和偏向， $\circ$ 表示entry-wise矩阵内积， $\sigma$ 表示激活函数。更新后， $s_r'$ 通过提取特征和尺寸调整重新放回 $S$