NTU Li Hongyi Aprendizaje automático 2020 Notas de estudio (1): Introducción al aprendizaje automático

Prólogo

El año pasado, escuché el Machine Learning 2019 de Li Hongyi, profesor de la Universidad Nacional de Taiwán, y sentí que el profesor hablaba muy bien. Así que planeo escuchar atentamente Machine Learning 2020 este año y tomar una nota completa. He escrito mucho en el prefacio.

Connotación de aprendizaje automático

El aprendizaje automático es dejar que la máquina encuentre funciones automáticamente. Por ejemplo, el reconocimiento de voz es dejar que la máquina encuentre una función, la entrada es una señal de sonido y la salida es el texto correspondiente. En el siguiente juego, se le pide a la máquina que encuentre una función: la entrada es la posición de blanco y negro en el tablero actual, y la salida es donde debería estar el siguiente paso.

Tareas de aprendizaje automático: ¿qué función queremos que encuentre la máquina?

Regresión

La salida es numérica. Tales como precios de la vivienda, pronóstico de PM2.5.

clasificación binaria (clasificación binaria)

Solo hay dos posibilidades de salida, positiva o negativa.

Clasificación de clases múltiples

Produce el valor de probabilidad de que la entrada actual pertenece a las N categorías dadas, y toma la categoría correspondiente al mayor de los N valores de probabilidad como la respuesta correcta.

Generación

El resultado es estructurado y complejo. Como la traducción, el dibujo.

Clasificación de aprendizaje automático: dígale a la máquina qué función queremos

Aprendizaje supervisado

Si se espera que la máquina dé una respuesta ideal para cada entrada, implica aprendizaje supervisado, donde la clasificación y la regresión son aprendizaje supervisado. El aprendizaje supervisado no solo necesita proporcionar datos de la máquina, sino también etiquetas, que son las respuestas correctas esperadas, como se muestra en la siguiente figura (citada en la presentación del curso ), donde x es la imagen de entrada e y es la etiqueta.

Aprendizaje de refuerzo (aprendizaje de refuerzo)

Si hay muchos pasos para lograr algo, pero si no está dispuesto o no puede decirle a la máquina cómo manejar cada paso correctamente, puede utilizar el aprendizaje por refuerzo. Deje que la máquina juegue sola o con otros, y luego obtenga el resultado final de la cosa. Si la máquina se completa bien, será recompensada, y si no se completa, será castigada (recompensa y castigo son dos formas de actualizar los parámetros del modelo). Lo último que la máquina aprende es Para cada paso, qué se debe hacer para maximizar la probabilidad de obtener un buen resultado. alphaGO es un producto de aprendizaje supervisado y aprendizaje de refuerzo, y su versión mejorada de alphaGO zero es un producto de aprendizaje de refuerzo completo.

Aprendizaje no supervisado

Tener una gran cantidad de datos, pero no puede etiquetar o es difícil de etiquetar sin conocimiento previo, pero quiere obtener la estructura de los datos, implica un aprendizaje no supervisado. Un ejemplo típico de aprendizaje no supervisado es la agrupación.

Función alcance-estructura de la función

El aprendizaje automático actual no requiere que la máquina produzca una mejor función de la nada, sino que le dé a la máquina una estructura funcional (un conjunto específico de funciones) y le permita aprender un conjunto de mejores parámetros. Entonces la máquina puede completar mejor la tarea dada a través de la función determinada por este conjunto de parámetros. SVM, funciones lineales, CNN y RNN son estructuras de funciones, que determinan el rango de funciones que la máquina puede buscar. La siguiente figura es una estructura clásica de CNN.

Método típico para obtener el mejor descenso de gradiente funcional (gradiente decente)

Esperamos que el modelo (para distinguirlo de otras funciones, el modelo se reemplaza aquí) sea el mejor, es decir, la función de pérdida (función de pérdida) es la más pequeña. La dirección del gradiente es la dirección en la que el valor de la función cambia más rápidamente. Una función multivariante determina el gradiente de cada variable para determinar la contribución del cambio de cada variable al cambio del valor de la función y determinar cómo debe cambiar cada variable para que el valor de la función pueda La tasa disminuye al mínimo. De acuerdo con el valor actual de la función de pérdida, podemos calcular el valor del gradiente de la función de pérdida actual para cada variable y luego actualizar el valor de cada variable en la dirección que puede reducir el valor de la función de pérdida, puede lograr el descenso del gradiente (el valor del gradiente contiene Información actualizada de amplitud y dirección). Reducir el valor de la función de pérdida es optimizar el modelo.

Investigación de vanguardia

IA interpretable (ai explicable)

Ahora sé que el aprendizaje automático puede lograr una determinada operación, pero no está claro por qué se puede lograr. La explicación del maestro Li Hongyi es: Por ejemplo, un sistema de clasificación puede identificar a un gato en una imagen, pero no puede decirnos por qué cree que hay un gato en la imagen. Creo que hay algo mal con esta explicación, porque nosotros mismos vimos un gato en una imagen, y no podemos explicar por qué, porque los gatos existen allí. Detrás de la explicación está el apoyo de las matemáticas y la física. La interpretación de la física y las matemáticas puede hacer que el algoritmo sea más convincente.

Ataque adversario

Los sistemas actuales de aprendizaje automático son generalmente robustos a la interferencia, pero ¿qué pasa si la interferencia se agregó artificialmente? Algunos ataques de interferencia diseñados artificialmente que no son visibles a simple vista pueden hacer que la máquina tome una decisión equivocada (engañar al modelo entrenado). Este es el contenido de la investigación de contraataque.

Compresión de red

La red neuronal profunda actual, con cientos de millones de parámetros y decenas de millones de conexiones, es muy grande y solo puede ejecutarse perfectamente en un servidor o una GPU mejor. Lo que debe hacer la compresión de red es comprimir el volumen de la red, para que pueda adaptarse a teléfonos móviles o incluso a dispositivos más pequeños.

Detección de anomalías

Cuando la entrada de prueba es que el sistema no lo ha visto, el sistema emite aleatoriamente lo que ha aprendido o lo emite sin saberlo, este es el contenido de la investigación de detección de anomalías. Por ejemplo, el sistema no ha visto un gato, pero ha visto un perro, un zorro o un oso. Cuando se encuentra con un gato, ¿significa que es un perro, un zorro o un oso, o no sabe qué es? Citado de la presentación del curso .

Dominio del aprendizaje adversario

Cuando la entrada de prueba y nuestro conjunto de capacitación tienen una distribución diferente (distribución), si el sistema aún puede funcionar mejor, es el contenido del aprendizaje Adversarial de dominio (no sé cómo traducir). Como se muestra en la siguiente figura (citada en la presentación del curso ), si el conjunto de capacitación de reconocimiento de dígitos escritos a mano es una imagen en blanco y negro, pero la prueba son datos de varios colores, cómo evitar que se rompa el resultado.

Meta aprendizaje

El metaaprendizaje es dejar que la máquina aprenda a aprender, es decir, la máquina tiene la capacidad de aprender. La explicación del maestro Li Hongyi es: la razón por la cual la máquina puede obtener una cierta habilidad en el pasado es que la gente ha diseñado algoritmos para ello, y a través de mucho entrenamiento, la máquina tiene esa habilidad. El metaaprendizaje tiene como objetivo permitir que la máquina invente un algoritmo que sea mejor que el diseño humano cuando se enfrenta a una tarea, y todo lo que tenemos que hacer es darle la capacidad de aprendizaje automático (un poco abstracto, aprenda más tarde para perfeccionar la narrativa aquí) . Además, la razón del metaaprendizaje es que los algoritmos diseñados artificialmente ahora son "estúpidos" y la gente quiere que sea más inteligente. Como se muestra en la siguiente figura (citado de LakeEtAlBBS ), un pequeño resultado del juego alcanza la misma puntuación. La máquina necesita 900 horas a través del aprendizaje de refuerzo (reemplazado por el tiempo real, no el tiempo de ejecución de la máquina), mientras que el humano solo necesita dos horas, que pueden ser Porque los algoritmos diseñados artificialmente no son lo suficientemente eficientes.

Aprendizaje de por vida

Para las personas, esta palabra también es una palabra muy de moda. El aprendizaje permanente es esperar que la máquina pueda aprender múltiples tareas, enseñarle una tarea y será una tarea, se siente como nuestro cerebro, esto es muy difícil, y la evolución de decenas de miles de años no está cubierta. La imagen a continuación está tomada de la presentación del curso .

Conclusión

El nivel es limitado. Si hay un error al escribir algo, pídales a los amigos que lo han visto que me iluminen para aprender juntos y progresar juntos.

Referencia

http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML2020/introduction.pdf

https://www.bilibili.com/video/av94519857?p=1

https://www.jianshu.com/p/2c24a81dcd6b

Descuidado

28 artículos originales publicados · Me gustaron 34 · Visitantes más de 20,000

carta privada preocupaciones