Cuando baja potencia, de alta precisión, Microsoft tiki algoritmo de red neuronal para buscar semi-aprendizaje supervisado

Autor | Luo por miles, Xu Tan, Rui Qin Tao, Chen en Red, Rock Corbata  

Fuente | titulares de Microsoft Research AI (ID: MSRAsia)

Nota del editor: En los últimos años, de los nervios de búsqueda estructura de red (Buscar Neural Arquitectura, NAS ) ha hecho un gran avance, pero todavía se enfrenta a una búsqueda mucho tiempo inestable y los resultados de búsqueda desafío. Con este fin, Microsoft Asia Instituto de Investigación de la máquina Grupo de Aprendizaje sobre la estructura de la red neuronal algoritmo de búsqueda SemiNAS basados en el aprendizaje semi-supervisado puede llevar mucho tiempo a mejorar la precisión de la búsqueda y reducir la búsqueda mucho tiempo en la misma precisión de la búsqueda en la misma búsqueda. SemiNAS pueden llegar a 23,5% de la tasa de error de 6,8% top-1 y la tasa de error de la parte superior-5 en IMAGEnet (ajuste móvil). Mientras tanto, SemiNAS primera neuronales estructura de la red de búsqueda introducido tareas de síntesis de texto a voz (Text to Speech, TTS ) , los resultados obtenidos en los recursos bajos y mejorar la robustez de los dos escenarios.

NAS avance se ha hecho en los últimos años, es mediante la automatización del diseño de arquitecturas de redes neuronales, en muchas tareas (como la clasificación de imágenes, reconocimiento de objetos, modelo de lenguaje, la traducción automática) logrado que los expertos humanos para diseñar mejores resultados en la red.

Figura 1: Marco NAS esquemáticamente

NAS incluye un controlador (controlador) y un evaluador (Evaluador), donde el controlador es responsable de generar diferentes estructuras de red, y luego entregado al evaluador para evaluar , como se muestra en la figura. La evaluación debe entrenar a la red, y luego obtener la tasa de precisión en los objetivos y tareas del conjunto de datos de validación, y vuelve al controlador. El controlador utiliza la estructura de red y la correspondiente exactitud aprendizaje, generando de este modo una mejor estructura de la red. Este proceso, la evaluación del proceso es evaluar la red es muy lento, ya que requiere una formación para cada uno de la estructura de la red, y aprender todo lo que necesitan la estructura de red del controlador - la exactitud de los datos como la formación, por lo tanto hace que todo el proceso de búsqueda es la evaluación que consume tiempo es muy alta. En trabajos anteriores, el evaluador al menos cientos de GPU / día consume tiempo (equivalente a unos pocos días cientos carrera de una GPU).

Posteriormente, los investigadores han propuesto un algoritmo de búsqueda de una sola vez mediante el intercambio de estructura de red neuronal de parámetros (peso de reparto) de. En concreto, es la construcción de un super-red, incluyendo el espacio de búsqueda de todas las estructuras posibles, subestructuras de los mismos parámetros son compartidos entre diferentes estructuras. El entrenamiento través de la red al mismo tiempo entrenando el equivalente a varios estructura de la red. Este método requiere mucho tiempo directamente hasta 10 GPU / en un día, pero debido a sus propios problemas (como el tiempo medio de formación es menor que) la causa exacta de la estructura de la red y su relación con la precisión real de pedidos es débil, lo que afecta el control del aprendizaje, no es estable buscar una buena estructura de la red, y en ocasiones el efecto de búsqueda al azar de la misma.

Con el fin de resolver los métodos tradicionales que requieren mucho tiempo de alta formación, y los pobres método de una sola vez de buscar los problemas de rendimiento inestables, Microsoft Research Asia, el grupo de aprendizaje de máquina de investigadores han propuesto una red neuronal SemiNAS arquitectura método de búsqueda basado en el aprendizaje semi-supervisado, puede reducir la búsqueda consume tiempo, al tiempo que mejora la precisión de búsqueda .

método

El controlador NAS utiliza un gran número de arquitectura de red neural y su precisión correspondientes fueron aprendizaje supervisado (aprendizaje supervisado) como datos de entrenamiento. El entrenamiento de un gran número de estructura de la red hasta la convergencia para obtener la tasa de precisión es mucho tiempo, pero obtener datos sin supervisión (es decir, sólo se estructura de la red neuronal por sí mismo sin la exactitud correspondiente) es muy fácil (por ejemplo, generado de forma aleatoria estructura de la red). Por lo tanto, queremos utilizar una gran cantidad de datos sin supervisión (red neuronal) fácilmente disponibles para ayudar aún más controlador de aprendizaje, este método es conocido como semi-aprendizaje supervisado (el semi-aprendizaje supervisado) . Esto tiene dos ventajas: 1: mejorar el rendimiento en casi la misma costes de formación (los mismos datos supervisada), se puede utilizar una gran cantidad de datos sin supervisión para mejorar aún más el rendimiento de los algoritmos de búsqueda para buscar una mejor estructura de la red ;. 2. reducir el tiempo: en el caso de búsqueda para conseguir la misma precisión, mediante el uso de una gran cantidad de datos sin supervisión, se puede reducir en gran medida el número de datos supervisados para reducir el tiempo que consume el entrenamiento.

Para utilizar una gran cantidad de estructura de red sin etiquetas, para estar en la estructura de red de un pequeño número de aprendizaje Tagged, a continuación, la estructura de red marcado como sin marcar (predecir su exactitud) y luego añadirlos a la formación de datos originales para el aprendizaje. Más específicamente, se construyó un predictor rendimiento para predecir exactitud f_p de una estructura de red, que es entrenado por minimizar la pérdida de MSE, como se muestra en la Ecuación 1, en el que la pérdida de L_p:

oficial 1

Nos entrenamos en un conjunto de datos de supervisión f_p limitada, deja que converge con su marcada estructura de la red neuronal x 'predicción, la precisión para obtener y' = f_p (x '). Hemos previsto los datos en bruto y los datos de monitoreo del desempeño mixto predictor f_p la formación continua con el fin de lograr una mayor precisión.

Una buena formación f_p predictor de rendimiento se puede combinar con una variedad de algoritmos NAS para la tasa de precisión de la predicción de la estructura de la red de aprendizaje. Por ejemplo, el algoritmo (por ejemplo, NASNet [3], ENAS [6], etc.) y basado en el algoritmo de aprendizaje de refuerzo basado en algoritmos evolutivos (por ejemplo AmoebaNet [4], sola trayectoria One-Shot NAS [7], etc.), f_p se puede usar para la generación de red candidato precisión de la predicción de estructura. Para algoritmos basados ​​en gradiente (por ejemplo, dardos [5] y la NAO [1]), la red puede utilizar directamente la exactitud de la estructura predicha de un derivado de f_p estructura de la red, actualizar la estructura de la red.

En el presente trabajo se basa en el trabajo anterior NAO (Neural Arquitectura Optimization) [1], para lograr la búsqueda de los SemiNAS algoritmo. NAO principalmente comprende un codificador - rendimiento predictor - marco decodificador, la discreta estructura de la red neural codificador que se asigna a un espacio continuo vector en dicho predictor de rendimiento para la predicción de su exactitud, el decodificador es responsable de la representación continua vector se decodifica en discreta neural representación estructura de la red. En el entrenamiento, los tres capacitación conjunta, la predicción del rendimiento es entrenado por tarea de regresión, el decodificador es entrenado por la tarea de la reconstrucción. Cuando se genera una nueva arquitectura de red, que entramos en una estructura de red, el predictor rendimiento calcula un gradiente de la estructura de la red de entrada, para obtener una mejor estructura de la red neuronal por gradiente de ascenso. Más detalles sobre NAO se pueden encontrar en los documentos originales.

La combinación propuesta de los métodos de aprendizaje, en SemiNAS, empezamos con una pequeña cantidad de datos de entrenamiento global etiqueta de marco y las muestras sin marcar obtener una gran cantidad de arquitectura de red neuronal del espacio de búsqueda, utilizando el marco de estas redes entrenadas para predecir la estructura tasa exacta . A continuación, utilice los datos originales de los buenos sin marcar datos de la etiqueta y la etiqueta con una formación completa todo el marco. Después de la optimización del método de acuerdo con NAO, generar una mejor estructura de la red.

Los resultados experimentales

Verificamos en los conjuntos de datos y una pluralidad de método tareas SemiNAS, que comprende la clasificación de imágenes (NASBench-101 [2], IMAGEnet) y la síntesis de texto a voz. Vale la pena mencionar que, NAS se utilizó por primera vez en tareas de síntesis de voz, y ha logrado buenos resultados.

NASBench-101

En primer lugar, hemos llevado a cabo experimentos en NASBench-101 [2] conjunto de datos. NASBench-101 es un algoritmo de autenticación de código abierto para NAS efecto conjunto de datos contiene 423K estructura de la red diferente y su precisión en la tarea de clasificación CIFAR-10, es decir, el evaluador proporciona una fuera de la caja, investigadores fácil de verificar rápidamente su propio algoritmo de búsqueda, y otros trabajos y una comparación justa (la eliminación de las diferentes técnicas de entrenamiento, y los datos de semilla aleatoria ajustada en sí para llevar la diferencia). Los resultados mostrados en la Tabla 1.

Tabla 1: Diferentes métodos NASBench-101 sobre el rendimiento de

En NASBench-101, un método de búsqueda aleatoria (Random búsqueda), método (regularizado Evolución, RE) algoritmo evolutivo y NAO después de probar una estructura de red 2000 eran de 93.66%, 93.97% y 93.87% de la exactitud promedio de la prueba tasa. Y SemiNAS en sólo una muestra de la estructura 300 de red después de la prueba ha logrado una tasa de precisión media de 93,98 por ciento, mientras que el logro el mismo rendimiento y RE y NAO, reduce en gran medida los recursos necesarios. Además, cuando el muestreo casi la misma estructura de la red (2100), SemiNAS consiguen tasa promedio exactitud de la prueba de 94.09 por ciento, más que cualquier otro método de búsqueda.

ImageNet

Hemos validado aún más en el desempeño de una tarea de clasificación IMAGEnet mayor SemiNAS, el proceso de búsqueda, que en realidad sólo la formación de las estructuras evaluadas 400, los resultados finales se muestran en la Tabla 2.

Tabla 2: rendimiento en los diferentes métodos de tareas de clasificación IMAGEnet

En las condiciones de ajuste móviles (FLOPS <600M), búsquedas SemiNAS la estructura de red compuesta de top-1 23,5% y la tasa de error de 6,8% de la tasa de error superior-5 que otros métodos NAS.

La síntesis de voz (TTS)

También exploramos en nuevas áreas de aplicación SemiNAS, la utilizamos para la síntesis de voz (Text to Speech, TTS) en la tarea.

Cuando el NAS se aplica a una nueva tarea que requiera frente a dos problemas básicos: el diseño diseño de espacio de búsqueda y el índice de búsqueda. Para el diseño del espacio de búsqueda, nos referimos a la corriente principal modelo TTS, codificadores basados ​​diseñados - marco (backbone) decodificador (codificador-decodificador) es. En una operación aritmética específica de cada búsqueda, la capa funcionamiento candidata comprende Transformador (cabeza de la atención que comprende un número diferente), la capa de convolución (que comprende los núcleos de convolución de diferentes tamaños), capa de LSTM. Para el diseño de la evaluación, los criterios de evaluación no son objetivas en las tareas de clasificación, así como el lenguaje tareas tarea de reconocimiento de modelo se puede hacer automáticamente por el programa. En la tarea de TTS, la calidad de audio sintetizado requiere mano de obra para juzgar, pero necesidad de evaluar cientos de NAS modelo de red, que en el TTS es poco realista. Es necesario diseñar un criterio de evaluación objetivas. Hemos encontrado que los mecanismos atencionales enfoque FIG el centro de la masa y su (tasa diagonal foco, DFR) sintetizado grado reorientación códec de audio en la diagonal existe una correlación fuerte que la calidad de audio de la final instructiva, así que elige como una evaluación objetiva en el momento de la búsqueda.

Tratamos de usar solución NAS a los retos actuales que enfrenta el TTS dos escenarios: a escenarios de bajos recursos (nivel bajo de recursos) y la robustez de la (ajuste robustez) escena. En el escenario de bajos recursos, TTS menos disponibles entrenando datos, mientras escenario robusta, la prueba es generalmente más difíciles de introducir texto. Vamos a NAO como una línea de base contraste, manteniendo la NAO y SemiNAS la misma búsqueda que consume tiempo para comparar el rendimiento final de la estructura de búsqueda en el experimento.

Nos LJSpeech en el set de datos (24 horas de texto en el idioma) de prueba, para escenarios de bajo recursos, seleccionados al azar cerca de 3 horas de datos de voz y de texto como un escenario de entrenamiento para simular bajo consumo de recursos, los resultados finales del experimento muestran en la Tabla 3.

Tabla 3: Diferentes métodos propiedades en escenarios de bajos recursos

Para el audio, finalmente generado, tenemos la inteligibilidad (inteligibilidad Rate, IR), es decir, se puede entender la proporción de la cantidad de palabras, para evaluar el desempeño del modelo. Se puede observar diseñado artificialmente Transformador TTS [8] logra sólo 88% de la inteligibilidad, antes de NAS algoritmo NAO logra 94% y el 97% alcanzó SemiNAS inteligibilidad, la mejora en comparación Transformador TTS 9 %, en comparación con la NAO también ha mejorado significativamente. Al mismo tiempo se puede ver, hemos diseñado el índice de búsqueda de DFR e IR se correlacionó positivamente verificado mediante el DFR como una evaluación objetiva de la validez de la búsqueda.

Para la robustez de la escena, estábamos en toda la formación LJSpeech, y luego encontramos una frase adicional 100 más difícil (que contiene muchos monosilábicas o sílabas repetidas, etc.) como un conjunto de pruebas, los resultados experimentales mostrados en la Tabla 4.

Tabla 4: Diferentes métodos rendimiento robusto en la escena

Calculamos el número de condenas repitió escupir la palabra se produce en diferentes modelos en el conjunto de prueba, palabras que faltan, y calculamos el porcentaje de error global (sentencia, siempre que una repetición escupió la palabra o palabras que aparecen a registrar un error de fuga). Puede ser visto, la tasa de error del transformador TTS alcanzó 22%, SemiNAS para reducirlo al 15%.

TTS experimental enlace de demostración de audio:

https://speechresearch.github.io/seminas/

resumen

SemiNAS aprendizaje semi-supervisado, el aprendizaje de la arquitectura de redes neuronales sin tener mucho entrenamiento, por un lado, puede mejorar el rendimiento del método en fase NAS existente en los costes de formación, por el rendimiento de la mano en las mismas condiciones se pueden mantener para reducir los costes de formación. Los experimentos demuestran que el método de múltiples tareas y conjuntos de datos han logrado muy buenos resultados. SemiNAS futuro tenemos la intención de aplicar a más algoritmo de búsqueda, mientras que la exploración de las aplicaciones NAS en más áreas.

Para más detalles, ver el artículo original:

Semi-supervisada Neural arquitectura de búsqueda

Papeles enlace: https: //arxiv.org/abs/2002.10389

Papeles ahora códigos de fuente abierta.

GitHub enlace: https: //github.com/renqianluo/SemiNAS

referencias

[1] Luo, Renqian, et al. "Optimización de la arquitectura neuronal." Los avances en los sistemas de procesamiento de información neural. 2018.

[2] Ying, Chris, et al. "NAS-Banco-101: Hacia reproducible Neural arquitectura de búsqueda." Conferencia internacional sobre aprendizaje automático. 2019.

[3] Zoph, Barret, et al. "Aprender arquitecturas transferibles para el reconocimiento de imágenes escalable." Actas de la Conferencia IEEE sobre la visión por computador y reconocimiento de patrones. 2018.

[4] real, Esteban, et al. "Evolución regularizado para una imagen clasificador de búsqueda arquitectura." Actas de la conferencia de AAAI en la inteligencia artificial. Vol. 33. 2019.

[5] Liu, Hanxiao, Karen Simonyan, y Yiming Yang. "Dardos: diferenciable arquitectura de búsqueda." (2018).

[6] Pham, Hieu, et al. "Neural eficiente arquitectura de búsqueda a través de los parámetros de uso compartido." Conferencia internacional sobre aprendizaje automático. 2018.

[7] Guo, Zichao, et al. "Trayectoria individual de un solo disparo neuronal búsqueda arquitectura con muestreo uniforme." arXiv arXiv: 1904.00420 (2019).

[8] Li, Naihan, et al. "Síntesis de voz con la red neuronal transformador." Actas de la Conferencia AAAI en inteligencia artificial. Vol. 33. 2019.

【end】

Bienvenidos a todos los desarrolladores bajo el relleno de lectura de códigos de Fanger Wei a cabo las "grandes desarrolladores y la investigación en IA", a sólo 2 minutos, se puede cosechar valor de 299 yuanes, "Los desarrolladores de AI millones de personas de congresos" entradas en vivo en línea!

推荐阅读全球呼吸机告急!医疗科技巨头美敦力“开源”设计图和源代码中国无人机“老炮儿”回忆录
互联网之父确诊新冠,一代传奇:任谷歌副总裁、NASA 访问科学家微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!在Kubernetes上部署一个简单的、类PaaS的平台,原来这么容易!2020年,这20个大家都认识的加密交易所过得怎么样?你点的每个“在看”,我都认真当成了AI
Liberadas 1375 artículos originales · ganado elogios 10000 + · vistas 6,85 millones +

Supongo que te gusta

Origin blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/105336743
Recomendado
Clasificación