Comparación del impacto de tres núcleos de convolución en los resultados del modelo

¡Acostúmbrate a escribir juntos! Este es el tercer día de mi participación en el "Nuggets Daily New Plan · April Update Challenge", haz clic para ver los detalles del evento .

prefacio

Aquí, para asegurar la comparabilidad de los experimentos, usamos el método de la variable de control para comparar la influencia de los núcleos de convolución de 3 × 3, 5 × 5 y 9 × 9 en la clasificación de imágenes. La estructura de la red LeNet-5 es la maestra. De esta manera, todos están familiarizados con ella y nuestro conjunto de datos también es el mismo.
La introducción detallada de la estructura de la red LeNet-5 se puede encontrar en Internet y también: juejin.cn/post/707478…

1. Antes de la comparación

Los invariantes explícitos son los siguientes:
1.1 El conjunto de datos no se modifica (las clases totales son 10, el conjunto de datos de dígitos escritos a mano, el número de clases individuales es 500)
1.2 La división del conjunto de entrenamiento y el conjunto de validación no se modifica (entrenamiento:validación=7:3)
1.3 Red La estructura es exactamente la misma excepto por el kernel de convolución
1.4 El mismo número de rondas de entrenamiento
1.5 La misma función de pérdida
1.6 La misma tasa de aprendizaje
1.7 La frecuencia de verificación
1.8 El mismo equipo de hardware

options = trainingOptions('sgdm',...
    'maxEpochs', 100, ...
    'ValidationData', imdsValidation, ...
    'ValidationFrequency',5,...
    'Verbose',false,...
    'Plots','training-progress');% 显示训练进度
复制代码

2. Resultados experimentales del kernel de convolución 5*5

Dado que el tamaño del kernel de convolución de LeNet-5 es de 5 por 5, primero experimentamos con el experimento original de LeNet-5
. De la siguiente figura, podemos obtener la siguiente información sobre el conjunto de datos bajo el kernel de convolución 5*5:
2.1 Precisión de verificación: 85,60 %
2.2 Duración del entrenamiento: 3 min-19 s
2.3 La curva de pérdida es convergente y normal (sin sobreajuste ni infraajuste)imagen.png

Resultados experimentales del núcleo de convolución 3.3 por 3

Solo cambiamos el tamaño del kernel de convolución y cambiamos el tamaño del kernel de convolución de 5 × 5 a un kernel de convolución de 3 × 3.
De la figura a continuación, podemos obtener el kernel de convolución de 3 × 3. El modelo tiene la siguiente información en el conjunto de datos
3.1 La verificación es precisa Grado: 69,20 %
3.2 Duración del entrenamiento: 3 min-09 s
3.3 Convergencia de la curva de pérdida (sin sobreajuste ni infraajuste)imagen.png

Resultados experimentales del núcleo de convolución de cuatro,9 por 9

Solo cambiamos el tamaño del kernel de convolución, y cambiamos el tamaño del kernel de convolución de 5 por 5 a un kernel de convolución de tamaño 9 por 9.
De la siguiente figura, podemos obtener el kernel de convolución de 9 por 9. El modelo tiene el siguiente información sobre el conjunto de datos
4.1 La verificación es precisa Grado: 90,80 %
4.2 Duración del entrenamiento: 3 min-13 s
4.3 Convergencia de la curva de pérdida (sin sobreajuste ni infraajuste)imagen.png

5. Análisis integral

En el caso de tasa de aprendizaje 0.1 (lr=0.1), 100 iteraciones de 2700 iteraciones, 5 iteraciones de revisiones de validación, función de pérdida sgdm, tamaño total de datos (500 por 10), entrenamiento:validación=7:3:
validación Precisión:
( 9 por 9) > (5 por 5) > (3 por 3)
Duración del entrenamiento:
(5 por 5) > (9 por 9) > (3 por 3)
Aunque los tres núcleos de convolución no están bien entrenados, pero si desea dibujar un general en uno corto, de acuerdo con la imagen, elija un tamaño de núcleo de convolución de 9 * 9 (limitando los mismos factores que arriba)

Supongo que te gusta

Origin juejin.im/post/7082360197905121310
Recomendado
Clasificación