La mayoría método apropiado para la formación de redes neuronales convolucionales con imágenes en escala de grises?

WMU 97:

Uso de la API Keras para entrenar una red neuronal de convolución, que normalmente uso capas de convolución 2D cuando la formación de la utilización de imágenes de color PNG (de tamaño de entrada (altura, ancho, 4)). Sin embargo, me gustaría ahora a formar una red utilizando imágenes PNG en escala de grises y me pregunto cuál es la mejor manera de hacer esto?

He llegado con tres métodos posibles:

  1. Entrada de la imagen como si se tratara de una imagen en color.
  2. Introducir sólo el primer canal de la imagen de manera que el tamaño de entrada es (altura, ancho, 1).
  3. Utilice una convolución 1D del primer canal de la imagen para que el tamaño de entrada es (altura, anchura).

Desde mis imágenes en escala de grises en formato png tienen los mismos valores en todos los canales RGBA, pensé que iba a ser capaz de disminuir el tiempo de cálculo al mismo tiempo lograr la misma exactitud de las pruebas de formación y las pruebas usando sólo el primer canal de color de la imagen como los datos sería esencialmente el mismo. Sin embargo, este no fue el caso.

Usando el método uno, yo era capaz de conseguir una exactitud de las pruebas de 91,95% con la toma de la formación ~ 3s por época.

Con el segundo método, una precisión de 89,66% con 2s ~ por época.

Con el método de tres, una precisión de 86,21% con <1s por época.

Todas las redes se entrenaron con la misma arquitectura de núcleo, tamaños y tamaños piscina, así que me pregunto qué podría estar causando las discrepancias en las precisiones y cuál debería confiar más?

desertnaut:

Su método # 3 no es claramente equivalente con los otros dos, y no de la manera de abordar el problema (parcialmente evidente a partir de la menor precisión, también).

Ahora, en teoría , los métodos # 1 y # 2 deben producir más o menos resultados similares, lo cual no lejos de la realidad, de acuerdo con los valores de precisión que presentan.

Ninguno de los dos métodos es válido. Una posible explicación de la algo más alta exactitud de # 1 es que, aunque en este caso que en realidad sólo tiene que repetir la información contenida en un solo x3 canal, esta práctica sirve como una especie de ensembling (amplificado a partir del hecho de que los respectivos filtros de convolución se iniciará a partir diferentes inicializaciones aleatorios); Esto conduce a más "sub-modelos" que contribuyen a la salida, por lo tanto, a un mejor rendimiento, de acuerdo con las expectativas generales para conjuntos modelo. Por supuesto, debe verificar que este es el caso de la ejecución de múltiples experimentos y tomar la precisión media para cada método (los resultados de un solo experimento siempre pueden diferir simplemente debido a diferentes inicializaciones aleatorias).

La verdad es que el rendimiento CNNs con imágenes de un solo canal es un tema bastante poco explorado que yo sepa. No proceder a la experimentación adicional usted mismo!

Los tiempos de inferencia por imagen que informe son consistentes con los diferentes enfoques: circunvoluciones 1D son más rápidos que los de 2D, y el procesamiento de una imagen de un solo canal de es también más rápido que uno de 3 canales.

Supongo que te gusta

Origin http://10.200.1.11:23101/article/api/json?id=383983&siteId=1
Recomendado
Clasificación