[Entrevista] GoogLeNet, ResNet, ShuffleNet, versión de texto de MobileNet

En comparación con AlexNet y VGG, GoogLeNet (Inception-v1) tiene varias ramas e introduce una convolución 1 × 1 para ayudar a reducir la cantidad de cálculos de red.
Inception-v2
presenta la normalización por lotes (BN); la convolución 5 × 5 usa dos convoluciones 3 × 3 en su lugar
Inception-v3
asimétrica convolución (n × n convolución se divide en 1 × ny n × 1 dos convoluciones);
nueva agrupación (para evitar la pérdida de información y no aumentar la cantidad de cálculo, la convolución de agrupación de series se cambia a paralelo conv, pool y concat)
Label smooth
Inception-v4
presenta la idea de acceso directo de ResNet
Convolución
normal de convolución separable de Xception (3 × 3256)
(1 × 1,256)
(3 × 3,1)
ResNeXt
introduce una nueva dimensión de cardinalidad

256d entrada (256,1 × 1,64) - (64,3 × 3,64) - (64,1 × 1,256) -sum x-256-d salida
→ cambiar a →
256d entrada (256,1 × 1,4) * 32- (4,3 × 3,4) * 32- (4,1 × 1,256) * 32-concat-sum x-256-d out (32 rutas usan los mismos parámetros de convolución)
profundidad de bloque Usar cuando> 3
PreAct ResNet
conv-bn-relu-sum x-relu → 改为 → bn-relu-conv-bn-relu-conv-sum x
SENet
x → (c × h × w) → Agrupación global (c × 1 × 1) → fc (c / 16 × 1 × 1) → fc (c × 1 × 1) → sigmoide (c × 1 × 1) → escala * x (c × h × w)
MobileNet V1 Convolución separable en profundidad convolución
normal (et. 3 ×
3256 ) convolución en profundidad (3 × 3,1)
convolución puntual (1 × 1256)
Convolución separable en profundidad de MobileNet V2 Igual que la
mejora de v1 : el residual invertido con cuello de botella lineal;
Bloque de residuos (1 × 1 → 3 × 3 → 1 × 1 canal primero compresión y luego expansión)
Residuos invertidos (1 × 1 → 3 × 3 → 1 × 1 el canal primero se expande y luego se comprime, porque la convolución DW no tiene la capacidad de cambiar el número de canales, y el efecto de extracción de características en un espacio de baja dimensión no es bueno)
cuello de botella lineal (eliminar el último PW Relu. La función de activación está en el espacio de alta dimensión Puede aumentar efectivamente la no linealidad, pero destruirá la característica en el espacio de baja dimensión. La función principal del segundo PW es reducir la dimensionalidad)

v1 in → DW 3 × 3 → Relu → PW 1 × 1 → Relu → out
v2 in → PW 1 × 1 → DW 3 × 3 → Relu → PW 1 × 1 → out
El modelo de atención liviano basado en la estructura de compresión y excitación introducido por MobileNet V3
optimiza la función de activación y
usa NAS
La estructura DPN High Order RNN (HORNN) combina ResNeXt y DenseNet
ShuffleNet V1
Channel Shuffle para convoluciones grupales
ShuffleNet V2
solo usa FLOP como estándar de medición no es completo. Uno de los factores que se pasan por alto es que MAC (costo de acceso a la memoria)
usa una capa convolucional "balanceada" (los canales de entrada y salida son los mismos);
use la convolución de paquetes con cuidado;
reduzca el uso de fragmentos Operación,
reducir las operaciones a nivel de elemento;

Se abandona la
división de canal de convolución de grupo 1x1 : el mapa de características se divide en dos grupos A y B. El
grupo A se considera un atajo; el grupo B pasa a través de canales de entrada y salida de cuello de botella, y
finalmente concat A y B
concat y realiza Channel Shuffle

[Entrevista] GoogLeNet, ResNet, ShuffleNet, versión de texto de MobileNet

Supongo que te gusta