Preprocesamiento de datos de imagen en media de imagen de aprendizaje profundo o media de píxeles

Primero cite la siguiente explicación en línea:

Para una imagen en escala de grises, cada píxel en la imagen media se calcula a partir del promedio de todos los píxeles correspondientes (es decir, las mismas coordenadas) en todas las imágenes de su conjunto de datos. La resta de "imagen media" significa que esta imagen media se resta de cualquier imagen de entrada que alimente a la red neuronal. La intención es tener entradas que estén (en promedio) centradas alrededor de cero.

El píxel medio es simplemente el promedio de todos los píxeles en la imagen media. La resta de "píxel medio" significa que resta el * mismo * valor de píxel medio de todos los píxeles de la entrada a la red neuronal.

Ahora, lo mismo se aplica a las imágenes RGB, excepto que cada canal se procesa de forma independiente (esto significa que no calculamos promedios entre canales, sino que cada canal pasa independientemente por las mismas transformaciones que para una imagen en escala de grises).

Intuitivamente, parece que la sustracción media de la imagen debería funcionar mejor (eso es lo que noté en el ejemplo del codificador automático en DIGITS) aunque no conozco documentos de investigación que respalden esto.

Para imágenes en escala de grises, cada píxel en la imagen promedio se calcula a partir del promedio de los píxeles correspondientes (es decir, las mismas coordenadas) entre todas las imágenes en el conjunto de datos. La sustracción de "imagen promedio" significa restar la imagen promedio de cualquier entrada de imagen de entrada a la red neuronal. El propósito es centrar la entrada (promedio) a cero.

El píxel promedio es solo el promedio de todos los píxeles en la imagen promedio. La sustracción de "píxel promedio" significa restar el "mismo" valor de píxel promedio de todos los píxeles ingresados a la red neuronal.

Lo mismo se aplica a las imágenes RGB, excepto que cada canal se procesa de forma independiente (esto significa que no calculamos el valor promedio entre canales, pero cada canal realiza independientemente la misma conversión que la imagen en escala de grises).

Intuitivamente, parece que la sustracción promedio de imágenes debería funcionar mejor (esto es lo que noté en el ejemplo del autoencoder en DIGITS), aunque no conozco ningún trabajo de investigación que respalde esta situación.

imagen significa ：

Por ejemplo, ingrese una imagen RGB, como N * N * 3, y encuentre la media de la imagen, y el resultado sigue siendo N * N * 3, es decir, todas las imágenes en el conjunto de entrenamiento están en la misma posición espacial (también el mismo canal, no cruzado Canal) se promedian los píxeles.

píxel medio ：

La media de píxeles es promediar los píxeles del canal R de todas las imágenes. Los canales G y B son los mismos, independientemente de la relación entre las posiciones espaciales. El resultado obtenido de esta manera es R_mean, G_mean, B_mean, lo que equivale a promediar nuevamente la media de la imagen.

Razones para restar la media:

(1) Desde la perspectiva de PCA

El valor medio se resta para la estandarización de características de datos La estandarización de características se refiere a hacer que cada dimensión de los datos tenga media cero y varianza unitaria. Este es el método más utilizado en la normalización. En los cálculos reales, la operación específica de la estandarización de características es: primero calcular el valor promedio de los datos en cada dimensión (usando los datos completos para calcular), y luego restar el valor promedio en cada dimensión. Finalmente, divida cada dimensión de los datos por la desviación estándar de los datos en esa dimensión.

Para imágenes naturales, es más hacer un procesamiento de imagen de media cero , y no necesita estimar la varianza de la muestra. Esto se debe a que cuando se entrena en imágenes naturales, no tiene mucho sentido estimar la media y la varianza de cada píxel por separado, porque (en teoría) las propiedades estadísticas de cualquier parte de la imagen deberían ser las mismas que otras partes. Este tipo de propiedad de la imagen se llama Hacer estacionaria.

Para las imágenes, esta normalización puede eliminar la intensidad promedio de la imagen. En muchos casos, no estamos interesados en la iluminación de la imagen, pero prestamos más atención a su contenido. Por ejemplo, en la tarea de reconocimiento de objetos, la imagen general El brillo no afecta qué objetos están presentes en la imagen. En este momento, es significativo eliminar el valor promedio de píxeles para cada punto de datos.

(2) Desde la perspectiva del cálculo de propagación hacia atrás

En el aprendizaje profundo, si utiliza el descenso de gradiente para entrenar el modelo, básicamente debe normalizar los datos durante el preprocesamiento de datos. Por supuesto que hay una razón.

De acuerdo con la fórmula

如果输入层 χ 很大，在反向传播时传递到输入层的梯度就会变得很大。梯度大，学习率就得非常小，否则会越过最优。在这种情况下，学习率的选择需要参考输入层的数值大小，而直接将数据归一化操作，可以很方便的选择学习率。而且受 χ 和 w 的影响，各个梯度的数量级不相同，因此，它们需要的学习率数量级也就不相同，对于w1 适合的学习率，可能相对于w2 来说太小，如果仍使用适合w1 的学习率，会导致在w2的方向上下降地很慢，会消耗非常多的时间，而使用适合W2的学习率，对于w1来说又太大，找不到适合w1的解。

Preprocesamiento de datos de imagen en media de imagen de aprendizaje profundo o media de píxeles

Supongo que te gusta