Notas de papel "ENAS: búsqueda eficiente de arquitectura neuronal mediante el uso compartido de parámetros"

Código de referencia: enas

1. Información general

Introducción: Este artículo propone utilizar el peso compartido para la búsqueda de red basada en NAS, lo que evita el entrenamiento repetido de muestras obtenidas por muestreo del controlador, comprimiendo así el tiempo de búsqueda general del algoritmo de búsqueda de red ENAS. En NAS, el controlador primero muestrea una estructura de red y luego la entrena para que converja, y luego usa el rendimiento de la red de muestreo como recompensa del controlador (pero los pesos entrenados con gran esfuerzo aquí serán descartados, y el siguiente La estructura de la red se capacitará desde el principio), para capacitar y orientar al controlador para mejorar la siguiente red generada Este artículo comparte los parámetros de la red. Cada vez que se muestrea una muestra del espacio de búsqueda de la red general (una subred cuyos parámetros se comparten) no es necesario entrenarla para la convergencia, lo que reduce en gran medida el tiempo de búsqueda de la red y lo convierte en se puede completar en una tarjeta gráfica 1080Ti en menos de 16 horas. Logró una tasa de error del 2,89% en el conjunto de datos CIFAR-10 (en comparación con el 2,65% del NAS), y el efecto es bastante cercano mientras que el tiempo se reduce considerablemente.

Diseño del espacio de búsqueda:
En este artículo, para realizar la compartición de parámetros en el espacio de búsqueda, se diseña una superred, en la cual el nodo representa una unidad de cómputo local (que contiene los parámetros que necesitan ser entrenados, si es que es muestreada por el controlador, se puede utilizar La información de parámetros almacenada en él, para realizar el intercambio de parámetros), el borde representa la dirección del flujo de la información de datos, y el diagrama construido se muestra en la siguiente figura:
Inserte la descripción de la imagen aquí
Diseño de El controlador de búsqueda:
Para la parte del controlador del algoritmo ENAS, es una red RNN que consta de múltiples nodos. Sus principales tareas son las siguientes:

  • 1) Controle que el borde necesita ser activado, es decir, seleccione el nodo predecesor del nodo actual;
  • 2) Seleccione el tipo de operación del nodo actual, como convolución, etc .;

Hay parámetros independientes en cada nodo, y se reutilizan durante todo el proceso de entrenamiento (también una especie de intercambio de parámetros). La siguiente figura muestra la estructura del controlador compuesta por 4 nodos (figura de la derecha): el
Inserte la descripción de la imagen aquí
izquierdo y el medio en el camino. dos figuras representan la estructura de subred seleccionada.

2. Diseño de métodos

2.1 Formación ENAS y generación final de la red

Todo el método diseñado en el artículo implica el entrenamiento de dos parámetros de distribución:

  • 1) El parámetro θ \ theta de la red RNN del controladorθ
  • 2) El parámetro de subred ww muestreado por el controladorw

A partir del flujo de algoritmos de ENAS, podemos saber que estos dos parámetros se entrenan alternativamente. Primero, complete el parámetro de subred wwEntrenamiento inicial de w , y luego entrenamiento de la parte de red del controlador RNN, y luego las dos redes se entrenan alternativamente hasta la convergencia.

Parámetro de subred wwEntrenamiento de w :
Al entrenar los parámetros de la subred, primero se fijan los parámetros del controlador ysemuestrea una subredmi = π (m; θ) m_i = \ pi (m; \ theta)metroyo=π ( m ;θ ) , y luego su entrenamiento es el proceso de entrenamiento estándar de la red CNN. Entonces, el gradiente de descenso de esta parte se puede describir como:
∇ w E m ∼ π (m; θ) [L (m; w)] ≈ 1 m ∑ i = 1 M δ w L (mi, w) \ nabla_wE_ { m \ sim \ pi (m; \ theta)} [L (m; w)] \ approx \ frac {1} {m} \ sum_ {i = 1} ^ M \ delta_wL (m_i, w)wmim ~ p ( m ? i )[ L ( m ;w ) ]metro1i = 1MDwL ( myo,w )
Entre ellos,MMM representa el número de subredes muestreadas a la vez. Aunque este método de muestreo traerá unavarianza mayorcuando el número de muestras es fijo, el artículo señala que está enM = 1 M = 1METRO=También funciona bien en el caso de 1 .

Parámetros de red del controlador θ \ thetaθ entrenamiento:
entrenando al controlador, entonces el parámetro correspondienteww de lasubred debe ser corregidow , debido a que el muestreo se realiza aquí de manera discreta, la fuente del gradiente de actualización de los parámetros del controlador se realiza utilizando elgradiente de política. Aquí, el rendimiento de la subred en el conjunto de datos val se utiliza como retroalimentaciónR (m; w) R (m; w)R ( m ;w ) para maximizar esta retroalimentación:
E m ∼ π (m; θ) [R (m; w)] E_ {m \ sim \ pi (m; \ theta)} [R (m; w)]mim ~ p ( m ? i )[ R ( m ;w ) ] Explicación del
gradiente de políticas:[CS285 Lecture 5] Gradiente de políticas

Además de la optimización supervisada mencionada anteriormente, el artículo también introduce restricciones en la conexión de salto La divergencia KL utilizada en el código se utiliza a priori de 0,4. Se introduce para evitar que la red genere demasiadas conexiones de salto, de modo que las características extraídas por la red se vuelvan cada vez más superficiales y se reduzcan la capacidad de expresión y la capacidad de generalización.

La elección de la red de generación final:
Finalmente, se debe generar la subred final. Generalmente, una pasada única a través de π (m; θ) \ pi (m; \ theta)π ( m ;θ ) Muestreo para obtener varias subredes, comparar su desempeño en el conjunto de datos val, seleccionar la que tenga el mejor desempeño entre ellas y entrenarla desde cero.

2.2 Diseño del espacio de búsqueda

Construcción de capa de red tradicional:
aquí está el número fijo de capas de red que deben buscarse al buscar L = 12 L = 12L=1 2 , y luego construya el controlador sobre esta base. Las funciones realizadas por el controlador son similares a las mencionadas anteriormente, excepto que las operaciones seleccionadas son diferentes. El espacio de operación utilizado aquí es: eltamaño del kernel de convolución es 3 ∗ 3 , 5 ∗ 5 3 * 3,5 * 533 ,55 Convolución separable convencional y convolución del tamaño de la piscina nuclear de3 * 3 * 3 333 operaciones de agrupación media y máxima. De hecho, aunque hay muchos cambios involucrados en todo el arreglo, todavía hay muchos hiperparámetros que son fijos y existen ciertas limitaciones. Para esta parte del proceso de búsqueda, consulte la siguiente figura:
Inserte la descripción de la imagen aquí
Construcción basada en celdas de red: la
eficiencia de la búsqueda de red capa por capa como la anterior es baja. Una idea natural es combinar algunas operaciones de red en un módulo pequeño, a través de la pila. de pequeños módulos Realice la construcción de la red general, como se muestra en la siguiente figura:
Inserte la descripción de la imagen aquí
Para tal situación de búsqueda, el artículo ha mejorado la parte del controlador:

  • 1) Seleccione dos de los nodos en el preámbulo como entrada;
  • 2) Elija el tipo de operación apropiado para estas dos entradas, diferentes tamaños de núcleos de convolución y tipos de convolución, etc .;

La siguiente figura muestra el diagrama de flujo de este método de búsqueda:
Inserte la descripción de la imagen aquí

3. Resultados experimentales

Conjunto de datos CIFAR-10:
Inserte la descripción de la imagen aquí
Visualización de resultados de búsqueda:
Inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/m_buddy/article/details/110428595
Recomendado
Clasificación