论文地址：Dual-Level Collaborative Transformer for Image Captioning (arxiv.org)

主要改进

Background

传统的image captioning 方法是基于图片每个grid来进行描述文字的生成 (左图)，通常会加入attention机制来强调图片中相对重要的区域。基于目标检测提取区域特征的方法 (右图)，让image captioning领域得到了一定的发展。
在这里插入图片描述
常见的方法是先通过目标检测模型，如Faster RCNN，提取图片中的有效区域，再针对这些有效区域进行描述文字的生成。

然而仅仅使用目标检测提取不同目标区域进行文字描述存在一些问题: 1. 缺少上下文及背景信息; 2. 缺少细粒度特征的描述。而细粒度特征和上下文信息又正是基于grid的描述方法的优势。如下图，每张图的第一种描述就缺少背景信息或者细粒度特征。
在这里插入图片描述

改进点

本文的主要改进点:

同时利用grid features 和 region features进行图像描述文字的生成；
找到一种方法来获取grid feature 和 region features之间的关系，并不产生语义上的噪音。

语义噪音(Semantic noises) 指grid features可能和不相关的 region feature 产生联系，因为他们之间有类似的特征。如下图，猫身上的白色和遥控器的白色在特征联系时就可能出现语义噪音。
在这里插入图片描述

文章提出一种新的image captioning 模型，Dual-Level Collaborative Transformer (DLCT) network. 这个方法结合了grid features, region features的优势。其中核心模块如下:

Comprehensive Relation Attention (CRA)
Dual-Way Self-Attention (DWSA) module
Locality-Constrained Cross Attention (LCCA)

模型讲解

Comprehensive Relation Attention (CRA)

Position Information

之前的模型对于区域的位置关系，一般只使用了区域之间的相对而言的位置 (并非相对位置，relative position)，比如，基于视觉特征的位置关系，一个白的物体在一个黄的物体旁边。但是，区域在图片中的绝对位置也是一个很重要的信息，这可以很好的区分有相似视觉特征的物体的位置关系，比如两个相同颜色的物体在图片的不同区域，用绝对位置便可以更好的表示与不同物体的位置关系。

两种不同的特征，grid features, region features, 使用不同的绝对位置编码 Absolute Positional Encoding (APE)

对于grid feature使用 grid positional encoding (GPE):
$\operatorname{GPE}(i, j)=\left[P E_{i} ; P E_{j}\right]$ 其中 $i$ , $j$ 表示 grid的横，纵坐标， $E_{i}, P E_{j} \in \mathbf{R}^{d_{\text {model }} / 2}$ 被定义为:
$\begin{array}{l} P E(\text { pos }, 2 k)=\sin \left(\text { pos } / 10000^{2 k /\left(d_{\text {model }} / 2\right)}\right), \\ P E(\text { pos }, 2 k+1)=\cos \left(\text { pos } / 10000^{2 k /\left(d_{\text {model }} / 2\right)}\right), \end{array}$

对于region feature 使用 region positional encoding (RPE):
$\operatorname{RPE}(i)=B_{i} W_{\text {emb }}$ 其中 $i$ 表示region box的索引, $\left(x_{\min }, y_{\min }\right)$ and $\left(x_{\max }, y_{\max }\right)$ 表示框的左上和右下坐标。 $W_{e m b} \in \mathbf{R}^{d_{\text {model }} \times 4}$ 是 embedding parameter matrix.

同时，对于不同的区域也增加了相对位置编码 relative positional encoding (RPE), 使用了区域的长宽高及坐标信息，对于grid features也被使用了当前位置的grid信息来做相对编码。
$\begin{array}{l} \Omega(i, j)= \left(\log \left(\frac{\left|x_{i}-x_{j}\right|}{w_{i}}\right), \log \left(\frac{\left|y_{i}-y_{j}\right|}{h_{i}}\right), \log \left(\frac{w_{i}}{w_{j}}\right), \log \left(\frac{h_{i}}{h_{j}}\right)\right)^{T} \end{array}$
其中 $\Omega(i, j)$ 先使用transformer中的方法进行embedding，然后线性变换成标量再进过ReLU激活函数。

$\Omega(i, j)=\operatorname{ReLU}\left(\operatorname{Emb}(\Omega(i, j)) W_{G}\right)$

Comprehensive Relation Attention

本文提出了利用上面提到的位置信息的一种新的attention模块, Comprehensive relation Attention。它加入了 query, key 的绝对位置信息和相对位置信息。

$\begin{array}{l} \operatorname{CRA}\left(Q, K, V, \operatorname{pos}_{q}, \operatorname{pos}_{k}, \Omega\right)= \\ \operatorname{softmax}\left(\frac{\left(Q+\operatorname{pos}_{q}\right)\left(K+\operatorname{pos}_{k}\right)^{T}}{\sqrt{d_{k}}}+\log (\Omega)\right) V \end{array}$
同样也是用了multi-head attention:
$\begin{array}{l} \operatorname{MHCRA}(Q, K, V)=\operatorname{Concat}\left(\operatorname{head}_{1}, \cdots, \operatorname{head}_{h}\right) W^{O}, \\ \text { head }_{i}=\operatorname{CRA}\left(Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}, \operatorname{pos}_{q}, \operatorname{pos}_{k}, \Omega\right), \end{array}$

Dual-Level Collaborative Encoder

整体的模型结构如下
在这里插入图片描述

Dual-Way Self Attention

因为模型利用了 region features ( $V_R = \{vi\}^{NR}$ ) 和 grid features ( $V_G = \{vi\}^{NG}$ )，因此在encoder输入两种特征后，分别使用了self-attention 进行了特征提取。

$\begin{array}{l} \mathbf{C}_{r}^{(l)}=\operatorname{MHCRA}\left(\mathbf{H}_{r}^{(l)}, \mathbf{H}_{r}^{(l)}, \mathbf{H}_{r}^{(l)}, \text { RPE }, \text { RPE }, \Omega_{r r}\right) \\ \mathbf{C}_{g}^{(l)}=\operatorname{MHCRA}\left(\mathbf{H}_{g}^{(l)}, \mathbf{H}_{g}^{(l)}, \mathbf{H}_{g}^{(l)}, \text { GPE }, \text { GPE }, \Omega_{g g}\right) \end{array}$
其中 $\mathbf{H}_{r}^{(0)}=V_{R}$ , $\mathbf{H}_{g}^{(0)}=V_{G}$ . $\Omega^{r r}$ 和 $\Omega^{g g}$ 是region features 和 grid features的相对位置矩阵。

Self attention 后都会接上FFN模块:
$\begin{aligned} \mathbf{C}_{r}^{\prime(l)} &=\operatorname{FFN}_{r}\left(\mathbf{C}_{r}^{(l)}\right), \\ \mathbf{C}_{g}^{\prime(l)} &=\operatorname{FFN}_{g}\left(\mathbf{C}_{g}^{(l)}\right) . \end{aligned}$

这样两种特征都做了基于self attention机制的特征提取。

Locality-Constrained Cross Attention

在进行完self-attention之后，就开始对region features 和 grid features 进行特征的相互关系的融合。为了避免语义噪音，文中引出了 geometric alignment graph $G = (V, E)$ 。region features 和 grid features 都由独立的节点 $V$ 表示，节点之间由无向边 $E$ 表示。一个 grid node 只和与它有交集的 region node 之间存在边。但是，图中的 grid 和 region 可能存在没有任何交集的情况，因此，对于每个节点都与自己有一条边，如下图所示。
在这里插入图片描述

接下来就是基于这个图作为限制条件，来进行两种特征的融合。融合的办法为 Locality-Constrained Cross Attention (LCCA). 在这个模块中，源信息作为queries，目标信息作为keys，values，来将目标信息中的内容基于和源信息的关系embed到源信息中。可以理解为一个基于两种特征的关系，将两种特征相互交换的过程。

其中attention weight 的计算使用到的softmax改为基于图限制的softmax，即如果两个节点之间没有边相连，这个attention weight 则置0.

$\alpha_{i j}=\frac{e^{W_{i j}^{\prime}}}{\sum_{j \in A\left(v_{i}\right)} e^{W_{i j}^{\prime}}}$
其中 $v_{i}$ 表示图中的节点，即region 或 grid。 $A\left(v_{i}\right)$ 是与节点 $v_{i}$ 有边相连的节点。

在经过特征融合后的节点特征可以表示为：
$\mathbf{M}_{i}=\sum_{j \in A\left(v_{i}\right)} \alpha_{i j}^{(l)} V_{j}$
通过这个方法，将先计算与当前节点相连的节点的权重矩阵，在通过权重来进行特征的融合。

举个例子，比如要计算 $r_2$ 和 $g_{43}$ , $g_{65}$ 的 LCCA。将 $r_2$ 作为源信息， $g_{43}$ , $g_{65}$ 作为目标信息。首先计算 $r_2$ 和 $g_{43}$ , $g_{65}$ 之间的attention weight，即 $r_2$ 和 $g_{43}$ , $g_{65}$ 之间的关系。通过关系的权重，得到 $r_2$ 基于 $g_{43}$ , $g_{65}$ 的表征。此时 $r_2$ 就由 $g_{43}$ , $g_{65}$ 表示。通过这样的操作，grid features 和 region features就很好的相互融合表示了。

至此，LCCA的过程就结束了，模型中同样使用了multi-head attention，公式如下：
$\operatorname{MHLCCA}(Q, K, V)=\text { Concat }\left(\operatorname{head}_{1}, \cdots, \text { head }_{h}\right) W^{O}$
$\text { head }_{i}=\operatorname{LCCA}\left(Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}, \operatorname{pos}_{q}, p o s_{k}, \Omega, G\right)$
其中attention 运算使用的是CRA，并使用了上述基于图的权重计算方法 (Graph-SoftMax)
$\operatorname{CRA}\left(Q, K, V, \operatorname{pos}_{q}, \operatorname{pos}_{k}, \Omega, G\right)= \\ \operatorname{graph-softmax~}_{G}\left(\frac{\left(Q+\operatorname{pos}_{q}\right)\left(K+\operatorname{pos}_{k}\right)^{T}}{\sqrt{d_{k}}}+\log (\Omega)\right) V$
grid features 和 region features 进行相互的特征融合，得到最终的encoder的输出：
$\mathbf{M}_{r}^{(l)}=\operatorname{MHLCCA}\left(\mathbf{C}_{r}^{\prime}(l), \mathbf{C}_{g}^{\prime}(l), \mathbf{C}_{g}^{\prime(l)}, \mathrm{RPE}, \mathrm{GPE}, \Omega_{r g}, G\right)$ $\mathbf{M}_{g}^{(l)}=\operatorname{MHLCCA}\left(\mathbf{C}_{g}^{\prime}(l), \mathbf{C}_{r}^{\prime}(l), \mathbf{C}_{r}^{\prime(l)}, \mathrm{GPE}, \mathrm{RPE}, \Omega_{g r}, G\right)$

其中 $\Omega_{r g}$ 是regions 和 grids的相对位置矩阵。 $\Omega_{g r}$ 是 grids和 regions的相对位置矩阵。

通过这样的方法，我们将region features embed 到grids中，相反的将 grid features embed 到对应的region 里。最后将通过Dual-Level Collaborative Encoder的两个特征，grid features 和 region features 堆叠起来送入transformer decoder中进行文本的生成。

总结

下图展示了使用了两种特征融合的方法和传统transformer生成文本的结果。可以看到，本文提出的DLCT模型能够更好的生成背景信息以及细节信息。
在这里插入图片描述
下图是image captioning模型表现的对比表格。

AAAI 2021 Image captioning: Dual-Level Collaborative Transformer for Image Captioning