Documento:
https://arxiv.org/abs/2207.14284
Código fuente:
https://github.com/raoyongming/HorNet

Este artículo propone una convolución cerrada recursiva $g_{n}Conv$ , $g_{n}Conv$ realiza interacciones espaciales de alto orden eficientes, escalables y equivalentes a la traducción a través de convolución cerrada y diseño recursivo.
Sobre esta base, el autor construyó una nueva red esquelética visual de propósito general HorNet y utilizó una gran cantidad de experimentos para demostrar que $La eficacia de g n C o n v$ y HorNet en las líneas de base de reconocimiento visual de uso común.

1 Motivación

En el campo del aprendizaje profundo, la introducción de CNN ha promovido en gran medida el desarrollo de la visión artificial. Debido a algunas características inherentes de la propia CNN, se puede aplicar naturalmente a una amplia gama de tareas visuales. Por ejemplo, la equivalencia de traducción introduce sesgos inductivos efectivos para tareas visuales y realiza la reproducibilidad entre mapas de características de diferentes resoluciones. Transferibilidad; por ejemplo , varias redes troncales desde VGG hasta ResNet y más allá han promovido aún más la popularidad de CNN en tareas visuales.

Sin embargo, Vision Transformer ha mostrado un buen desempeño en varias tareas visuales al combinar algunas experiencias exitosas de CNN, lo que desafía en gran medida la posición dominante de CNN en el campo visual. Así que no pudimos evitar pensar: ¿qué hace que Vision Transformer sea tan poderoso? ¿Podemos aprender de la experiencia exitosa en Vision Transformer y rediseñar una nueva arquitectura de CNN?

a través del análisis de la metaarquitectura de ViT. $7 * 7$ núcleos de convolución para fortalecer el aprendizaje de relaciones de largo alcance (long-range), y algunos documentos usan directamente hasta $31 * 31$ núcleos de convolución para aprender dependencias de larga distancia;[1]muestra que los pesos adaptativos de entrada también juegan un papel importante en Vision Transformer, como SwinTransformer, que usa convolución dinámica en una serie de tareas posteriores logrando mejores resultados. Los dos puntos anteriores son en realidad las razones del éxito de Transformer, pero el autor señaló que, debido a razones no lineales, a menudo hay interacciones complejas de alto orden entre dos posiciones espaciales en el modelo profundo, y el éxito de las redes dinámicas como la autodeterminación. La atención muestra que, la interacción espacial explícita de alto orden introducida en el diseño de la arquitectura del modelo conduce a mejorar la capacidad de modelado del modelo visual, por lo que el autor señaló una tercera característica igualmente importante: la interacción espacial de alto orden.

2 Introducción

La llamada interacción espacial generalmente significa que en el proceso de muestreo del mapa de características, a través de algún tipo de cálculo adicional o propio, la interacción espacial se agrega a las características generadas. Por ejemplo, en Transformer, se utilizan diferentes transformaciones para generar Q y K y luego realizar el cálculo de la correlación de posición espacial. Entonces, ¿cómo entender la interacción espacial de alto orden aquí? Echemos un vistazo al diagrama esquemático en el texto original.

Como se muestra en la figura anterior, la convolución ordinaria representada por (a) no muestra la consideración de la interacción espacial entre la posición espacial (área característica roja) y su área adyacente (área gris); (b) representa la convolución dinámica o SE El método de atención visual representativa genera ponderaciones dinámicas a través de cálculos de características adicionales para introducir una interacción espacial explícita; (c) representa el proceso del mecanismo de autoatención en Transformer, que ejecuta la matriz entre Q, K y V Multiplicación, el proceso general es una interacción espacial de segundo orden (Q interactúa con K y luego interactúa con V); (d) es el $g_{n}Conv propuesto en este documento$ , a través del diseño de un ancho de canal creciente, realiza una interacción espacial de alto orden con una complejidad limitada.

En este artículo, el autor resume que las tres armas mágicas para el éxito de Vision Transformer son el espacio para la interacción espacial adaptativa de entrada, de largo alcance y de alto orden Si bien el trabajo anterior migró con éxito la metaarquitectura, la estrategia de generación de peso adaptable a la entrada y las capacidades de modelado a gran escala de Vision Transformer a los modelos CNN, no se han investigado los mecanismos de interacción espacial de alto orden.

Los autores señalan que los tres factores clave se pueden implementar de manera eficiente utilizando un marco basado en convolución y proponen una convolución cerrada recursiva $g_{n }Conv)$ $g_{$ $n$ } $Conv$ $gramo El módulo C o n v$ no imita simplemente diseños exitosos en autoatención, y tiene sus propias ventajas:
1) Eficiente. La implementación basada en convolución evita la complejidad cuadrática de la autoatención, y el diseño de aumentar gradualmente el ancho del canal en el proceso de realizar la interacción espacial también le permite lograr interacciones de alto orden con complejidad limitada; 2) Escalabilidad
. Extender las interacciones de segundo orden en la autoatención a órdenes arbitrarios mejora aún más las capacidades de modelado y $g_{n}Conv$ es compatible con varios tamaños de kernel y estrategias de mezcla de espacio;
3)) Equivariante de traducción. $g_{n}Conv$ hereda completamente la propiedad de equivalencia de traducción de la convolución estándar, introduce un sesgo inductivo beneficioso para la tarea de visión principal y evita la asimetría causada por la atención local.

3 Método

$g_{n}Conv$ está construido conestándar, proyección lineal y multiplicación de elementos (producto de Hadamard)En términos de describir mi $g_{n}Conv$ comprensión.

3.1 $g_{n}Conv$ ：Convoluciones cerradas recursivas

Interacción espacial de primer orden: en CNN, la red utiliza principalmente núcleos de convolución estáticos para agregar entidades adyacentes, mientras que Vision Transformer utiliza la autoatención de varios cabezales (MSA) para agregar dinámicamente los pesos de los tokens en el espacio, pero el cuadrado en el proceso es complicado El tamaño de entrada del grado y la autoatención limita en gran medida la aplicación de Vision Transformer. El autor logra la misma interacción espacial efectiva mediante el uso de operaciones simples como la capa totalmente conectada del kernel de convolución. El módulo básico de este método es Producto de volumen cerrado ( $g_{n}Conv$ ）。设 $x\in\mathbb{R}^{HW\times C}$ es la característica de entrada de la convolución cerrada, luego su salida $y=g_{n}Conv(x)$ 可表示为： $\begin{split}[p_{0}^{HW\times C},q_{0}^{HW×C}]=\phi(x) \in\mathbb{R}^{HW\times 2C},\\ p_{1}=f(q_{0})\odot p_{0}\in\mathbb{R}^{HW\times C}, \\y=\phi(p_{1})\in\mathbb{R}^{HW\times C}\end{split}\tag{3.1}$ Fórmula $(3.1)$ es ingresarDespués de $proyectar x$ $p_{0}$ y $q_{0}$ $q_{0}$ después del cálculo de convolución de profundidad $q$ Entonces con $p_{0}$ Haz el producto escalar para obtener $p_{1}$ ， $pag_{1}$ Pasará por otra proyección lineal para obtener la salida $y$ , el proceso anterior demuestra la interacción espacial de primer orden, y la función adyacente $p_{0}$ y $q_{0}$ interacción entre.

Interacción espacial de orden superior: el proceso anterior demuestra la interacción espacial de primer orden. De hecho, lo mismo es cierto para la interacción espacial de orden superior: primero use la función de proyección lineal $\phi$ obtiene un conjunto de características de proyección $p_{0}$ 和 $\{q_{k}\}_{k=0}^{n-1}$ ： $\begin{dividir} [p_{0}^{ HW\veces C_{0}},q_{0}^{HW\veces C_{0}},...,q_{n-1}^{HW\veces C_{n-1}}]=\phi_ {en}(x)\en \mathbb{R}^{HW\times (C_{0}+\sum_{0\leq k\leq n-1}C_{k})}\end{split}\tag {3.2}$ Esta fórmula es principalmente para dividir las funciones de entrada según el canal, y la explicación es realmente abstracta. Aquí, presionemos primero la tabla y luego hablemos de ella en detalle cuando hablemos del código más adelante. Usando la fórmula $(3.2)$ Después de obtener las características segmentadas, podemos ingresarlas en la convolución cerrada a su vez para la operación recursiva: $p_{k+1}=f_{k}(q_{k})\odot g_{k}(p_{k})/\alpha \qquad k=0,1,.. .,n- 1\etiqueta{3.3}$ Fórmula $(3.3)$ Las características de salida en cada operación se calculan según $1/\alpha$ se escala para que el entrenamiento sea más estable, ya que las dos dimensiones deben ser iguales en el proceso de interacción espacial, $g_{k}$ es la función de mapeo de dimensiones durante la operación: $g_{k}=\begin{cases } Identity ,\qquad \qquad \qquad \qquad k=0,\\ Lineal(C_{k-1},C_{k}) \qquad 1\leq k\leq n-1.\end{casos}\tag {3.4 }$ Finalmente, la red generará la recursión final $q_{n}$ Entrada a la capa de proyección $\phi(salida)$ , obtener $g_{n}Conv$ . Por la fórmula recursiva $(3.3)$ Se puede ver que cada paso $p_{k}$ El orden de interacción de aumentará en 1, que en realidad es $g_{n}Conv$ es la forma principal de realizar una interacción espacial de orden n. Vale la pena señalar que aquí solo se necesita un $f$ + $\{q_{k}\}_{k=0}^{n-1}$ Las características se unen para la convolución de profundidad, en lugar de Las convoluciones se calculan en cada paso recursivo como en $($ $3.3$ $) , y esto puede simplificar aún más la implementación y mejorar la eficiencia en las GPU.$ Además, para garantizar que las operaciones interactivas de alto nivel no introduzcan demasiado consumo computacional, el autor también restringe el número de canales en cada nivel: $C_{k}=\frac{C}{2^{nk-1}}\qquad 0\leq k \leq n-1 \tag{3.5}$ Este diseño hace que la red realice una interacción de grueso a fino, donde las características de orden inferior se calculan con menos canales, y las características de orden superior deben asignarse a características de dimensiones altas para aprender patrones más ricos. Y, aquí, el canal de la función de entrada se asigna a $2 C$ , incluso si $A medida que aumenta n$ (el orden, el orden de los parámetros en el código fuente a continuación), la cantidad total de cálculo también está limitada (consulte el Apéndice A para conocer los detalles de prueba relevantes), a saber: $FLOPs(g_{n}Conv)<HWC(2K^{2}+11/3\times C +2)\tag{3.6}$ Lo anterior es aproximadamente la deducción de la fórmula principal del módulo de convolución cerrada, y el modelo y el código fuente se presentan a continuación.

3.2 Código y arquitectura para $g_{n}Conv$

El módulo representado en la figura anterior es una ilustración de la interacción espacial de tercer orden, a saber, $g^{3}Conv$ , de hecho, tome $g_{n}Conv$ se muestran completamente, y luego lo presentaré en detalle. Primero, veamos varios parámetros y módulos importantes definidos dentro del constructor init():

Para	Significado
o	El orden máximo de interacción espacial, es decir, n
oscuro	Dimensiones después de dividir 2C en espacios de diferentes órdenes, correspondientes a la fórmula 3.2
proj_en	Ingrese la capa de mapeo lineal de x, correspondiente a $\phi(in)$
duconv	Módulo de convolución separable en profundidad para extracción de características
desaparecido	El módulo de convolución utilizado en el proceso de interacción espacial de alto orden, correspondiente a la fórmula 3.4
proyecto_fuera	La capa de mapeo lineal que genera y, correspondiente a $\phi(out)$

Aquí está el código fuente publicado por el autor en Github. He anotado los detalles internos y he depurado $g_{n}Conv$ , los lectores pueden ejecutarla por sí mismos para explorar el significado de parámetros específicos.

import torch
import torch.nn as nn

def get_dwconv(dim, kernel, bias):
    return nn.Conv2d(dim, dim, kernel_size=kernel, padding=(kernel-1)//2 ,bias=bias, groups=dim)


class gnconv(nn.Module):
    def __init__(self, dim, order=3, gflayer=None, h=14, w=8, s=1.0):
        super().__init__()
        self.order = order# 空间交互的阶数，即n
        self.dims = [dim // 2 ** i for i in range(order)]# 将2C在不同阶的空间上进行切分，对应公式3.2
        self.dims.reverse()# 反序，使低层通道少，高层通道多
        self.proj_in = nn.Conv2d(dim, 2* dim, 1)# 输入x的线性映射层，对应$\phi(in)$

        if gflayer is None:# 是否使用Global Filter
            self.dwconv = get_dwconv(sum(self.dims), 7, True)
        else:# 在全特征上进行卷积，多在后期使用
            self.dwconv = gflayer(sum(self.dims), h=h, w=w)

        self.proj_out = nn.Conv2d(dim, dim, 1)# 输出y的线性映射层，对应$\phi(out)$

        self.pws = nn.ModuleList(# 高阶空间交互过程中使用的卷积模块，对应公式3.4
            [nn.Conv2d(self.dims[i], self.dims[i + 1], 1) for i in range(order - 1)]
        )

        self.scale = s# 缩放系数，对应公式3.3中的$\alpha$
        print('[gnconv]', order, 'order with dims=', self.dims, 'scale=%.4f' % self.scale)

    def forward(self, x, mask=None, dummy=False):
        print(self.dims)

        fused_x = self.proj_in(x)# channel double
        print("fused_x:",fused_x.shape)
        pwa, abc = torch.split(fused_x, (self.dims[0], sum(self.dims)), dim=1)# split channel to c/2**order and c(1-2**oder)
        print("pwa:{}  abc:{}".format(pwa.shape,abc.shape))

        dw_abc = self.dwconv(abc) * self.scale
        print('dw_abc:{}'.format(dw_abc.shape))

        dw_list = torch.split(dw_abc, self.dims, dim=1)

        # 两个相同尺寸的张量相乘，对应元素的相乘就是这个哈达玛积(mul)
        x = pwa * dw_list[0]
        print("x:{}".format(x.shape))

        for i in range(self.order - 1):
            x = self.pws[i](x) * dw_list[i + 1]
            print('conv[{}]:{} * dw_list[{}]:{} = x:{}'.format(i,self.pws[i],
                                                               i+1,dw_list[i+1].shape,
                                                               x.shape))

        x = self.proj_out(x)

        return x

if __name__ == '__main__':
    x=torch.randn((2,64,20,20))
    gn=gnconv(64)
    out=gn(x)
    print(out.shape)

Producción:

[gnconv] 3 order with dims= [16, 32, 64] scale=1.0000
[16, 32, 64]
fused_x: torch.Size([2, 128, 20, 20])
pwa:torch.Size([2, 16, 20, 20])  abc:torch.Size([2, 112, 20, 20])
dw_abc:torch.Size([2, 112, 20, 20])
x:torch.Size([2, 16, 20, 20])
conv[0]:Conv2d(16, 32, kernel_size=(1, 1), stride=(1, 1)) * dw_list[1]:torch.Size([2, 32, 20, 20]) = x:torch.Size([2, 32, 20, 20])
conv[1]:Conv2d(32, 64, kernel_size=(1, 1), stride=(1, 1)) * dw_list[2]:torch.Size([2, 64, 20, 20]) = x:torch.Size([2, 64, 20, 20])
torch.Size([2, 64, 20, 20])

4 Experimento

Aunque el artículo de HorNet tiene solo 14 páginas, la mayor parte del contenido en realidad presenta los experimentos comparativos de las tareas principales. A continuación, se presenta una breve introducción a los dos resultados experimentales: clasificación y detección.
Los resultados de los experimentos de clasificación de ImageNet se muestran en la Tabla 1. Se puede ver que el modelo HorNet todavía tiene un rendimiento muy competitivo en comparación con Vision Transformer y CNN de SOTA, y HorNet supera a Swin transformer y ConvNeXt.
El autor también evaluó el modelo en COCO, utilizando el marco Cascade Mask R-CNN, utilizando la red troncal HorNet-T/S/B/L para la detección de objetos y la segmentación de instancias. De manera similar, el modelo HorNet es muy superior a Swin/ConvNeXt tanto en AP de caja como en AP de máscara.

Conclusión

En general, el equipo del autor propone la convolución cerrada recursiva ( $g_{n}Conv$ ), que realiza interacciones espaciales de alto orden eficientes, escalables y equivalentes a la traducción a través de convolución cerrada y diseño recursivo.

En varios modelos de Vision Transformer y basados en convolución, $g_{n}Conv$ puede reemplazar la capa de mezcla espacial. Sobre esta base, el autor construyó una nueva red de esqueleto visual de propósito general HorNet y demostró a través de una gran cantidad de experimentos que $g_{n}Conv$ y HorNet en puntos de referencia de reconocimiento visual de uso común. Los autores esperan que su intento pueda inspirar trabajos futuros para explorar más a fondo las interacciones espaciales de orden superior en modelos visuales.

A FLOP de $g_{n}Conv$

[1] Sobre la conexión entre la atención local y la convolución dinámica en profundidad

CVPR 2022 | HorNet: Interacciones espaciales eficientes de orden superior con circunvoluciones cerradas recursivas

1 Motivación

2 Introducción

3 Método

3.1 $g_{n}Conv$ ：Convoluciones cerradas recursivas

3.2 Código y arquitectura para $g_{n}Conv$

4 Experimento

Conclusión

A FLOP de $g_{n}Conv$

Supongo que te gusta

CVPR 2022 | HorNet: Interacciones espaciales eficientes de orden superior con circunvoluciones cerradas recursivas

1 Motivación

2 Introducción

3 Método

3.1 gn Conv g_{n}ConvgramonC o n v：Convoluciones cerradas recursivas

3.2 Código y arquitectura para gn C onv g_{n}ConvgramonConv _ _ _

4 Experimento

Conclusión

A FLOP de gn C onv g_{n}ConvgramonConv _ _ _

Supongo que te gusta

3.1 $g_{n}Conv$ ：Convoluciones cerradas recursivas

3.2 Código y arquitectura para $g_{n}Conv$

A FLOP de $g_{n}Conv$