[Entrevista] GoogLeNet, ResNet, ShuffleNet, versión de texto de MobileNet


  • En comparación con AlexNet y VGG, GoogLeNet (Inception-v1) tiene varias ramas e introduce una convolución 1 × 1 para ayudar a reducir la cantidad de cálculos de red.

  • Inception-v2
    presenta la normalización por lotes (BN); la convolución 5 × 5 usa dos convoluciones 3 × 3 en su lugar

  • Inception-v3
    asimétrica convolución (n × n convolución se divide en 1 × ny n × 1 dos convoluciones);
    nueva agrupación (para evitar la pérdida de información y no aumentar la cantidad de cálculo, la convolución de agrupación de series se cambia a paralelo conv, pool y concat)
    Label smooth

  • Inception-v4
    presenta la idea de acceso directo de ResNet


  • Convolución
    normal de convolución separable de Xception (3 × 3256)
    (1 × 1,256)
    (3 × 3,1)

  • ResNeXt
    introduce una nueva dimensión de cardinalidad

    256d entrada (256,1 × 1,64) - (64,3 × 3,64) - (64,1 × 1,256) -sum x-256-d salida
    → cambiar a →
    256d entrada (256,1 × 1,4) * 32- (4,3 × 3,4) * 32- (4,1 × 1,256) * 32-concat-sum x-256-d out (32 rutas usan los mismos parámetros de convolución)
    profundidad de bloque Usar cuando> 3

  • PreAct ResNet
    conv-bn-relu-sum x-relu → 改为 → bn-relu-conv-bn-relu-conv-sum x

  • SENet
    x → (c × h × w) → Agrupación global (c × 1 × 1) → fc (c / 16 × 1 × 1) → fc (c × 1 × 1) → sigmoide (c × 1 × 1) → escala * x (c × h × w)


  • MobileNet V1 Convolución separable en profundidad convolución
    normal (et. 3 ×
    3256 ) convolución en profundidad (3 × 3,1)
    convolución puntual (1 × 1256)


  • Convolución separable en profundidad de MobileNet V2 Igual que la
    mejora de v1 : el residual invertido con cuello de botella lineal;
    Bloque de residuos (1 × 1 → 3 × 3 → 1 × 1 canal primero compresión y luego expansión)
    Residuos invertidos (1 × 1 → 3 × 3 → 1 × 1 el canal primero se expande y luego se comprime, porque la convolución DW no tiene la capacidad de cambiar el número de canales, y el efecto de extracción de características en un espacio de baja dimensión no es bueno)
    cuello de botella lineal (eliminar el último PW Relu. La función de activación está en el espacio de alta dimensión Puede aumentar efectivamente la no linealidad, pero destruirá la característica en el espacio de baja dimensión. La función principal del segundo PW es reducir la dimensionalidad)

    v1 in → DW 3 × 3 → Relu → PW 1 × 1 → Relu → out
    v2 in → PW 1 × 1 → DW 3 × 3 → Relu → PW 1 × 1 → out


  • El modelo de atención liviano basado en la estructura de compresión y excitación introducido por MobileNet V3
    optimiza la función de activación y
    usa NAS


  • La estructura DPN High Order RNN (HORNN) combina ResNeXt y DenseNet

  • ShuffleNet V1
    Channel Shuffle para convoluciones grupales

  • ShuffleNet V2
    solo usa FLOP como estándar de medición no es completo. Uno de los factores que se pasan por alto es que MAC (costo de acceso a la memoria)
    usa una capa convolucional "balanceada" (los canales de entrada y salida son los mismos);
    use la convolución de paquetes con cuidado;
    reduzca el uso de fragmentos Operación,
    reducir las operaciones a nivel de elemento;

    Se abandona la
    división de canal de convolución de grupo 1x1 : el mapa de características se divide en dos grupos A y B. El
    grupo A se considera un atajo; el grupo B pasa a través de canales de entrada y salida de cuello de botella, y
    finalmente concat A y B
    concat y realiza Channel Shuffle

Supongo que te gusta

Origin blog.csdn.net/qq_31622015/article/details/102786825
Recomendado
Clasificación