(Notas de estudio) La primera lección del curso de aprendizaje profundo de Wu Enda: red neuronal y aprendizaje profundo

Enlace de video: https://www.bilibili.com/video/BV164411m79z?p=8&spm_id_from=pageDriver

Una descripción general del aprendizaje profundo en la primera semana

1. ¿Qué es una red neuronal?

Inserte la descripción de la imagen aquí
En el problema de predicción del precio de la vivienda, entrenamos una curva como se muestra en la figura anterior basada en los datos de entrenamiento para ajustar los datos tanto como sea posible, y luego usamos la curva para predecir el precio de la vivienda según el tamaño de la casa. Esta función de curva que se ajusta a los precios de la vivienda puede verse como una red neuronal muy simple .

Inserte la descripción de la imagen aquí

El tamaño es la entrada, el precio es la salida y el pequeño círculo en el medio es una neurona independiente . La tarea de esta neurona es ingresar el tamaño, completar el cálculo lineal, tomar un valor no menor que 0 y finalmente obtener la salida. precio previsto. Se forma una red neuronal más compleja apilando esas neuronas individuales.
(La función representada por la curva anterior comienza en 0 y luego se convierte en una línea recta. Esta función se llama función ReLU).
Inserte la descripción de la imagen aquí
Cada círculo en la figura anterior puede representar una función ReLU u otras funciones no lineales (La población familiar se estima en función del área de la casa y la cantidad de dormitorios, el grado de peatonalización se puede estimar en función del código postal, y la calidad de las escuelas cercanas también se puede estimar en función del código postal). los precios tienen mucho que ver con lo que le importa a la gente. En este ejemplo, la población familiar, el grado de peatonalización y la calidad de la escuela pueden ayudarnos a predecir los precios de la vivienda. Esta es una red neuronal que utiliza múltiples neuronas.
Inserte la descripción de la imagen aquí

Partiendo de la premisa de que se conocen las características de estas entradas, el trabajo de la red neuronal es predecir el precio de la vivienda correspondiente. El círculo de la figura también se denomina unidad oculta de la red neuronal, que es responsable de calcular los datos de entrada y, finalmente, obtener el precio de la vivienda previsto y.

En segundo lugar, utilice redes neuronales para el aprendizaje supervisado.

Aprendizaje supervisado, Debe proporcionar a la máquina un conjunto de entrenamiento con etiquetas. Los llamados que contienenetiqueta, Es decirle a la máquina a qué clase pertenece esta entrada. A través del entrenamiento en el conjunto de entrenamiento, la máquina finalmente obtiene una función que puede usarse para la predicción, mientras que el aprendizaje no supervisado no tiene esta etiqueta. La siguiente es una lista de aplicaciones de las redes neuronales para el aprendizaje supervisado.
Inserte la descripción de la imagen aquí

De izquierda a derecha en la figura siguiente se encuentran las redes neuronales estándar, las redes neuronales convolucionales (CNN) y las redes neuronales recurrentes (RNN). CNN se usa principalmente para el procesamiento de imágenes, mientras que RNN se usa principalmente para procesar datos de secuencia unidimensionales.
Inserte la descripción de la imagen aquí

También se aplica el aprendizaje automáticoDatos estructuradosconDatos no estructurados. Los datos estructurados son una base de datos de datos. Por ejemplo, en la previsión de precios de vivienda, puede tener una base de datos o una columna de datos que le indique el tamaño de la habitación, el número de dormitorios ... Estos son datos estructurados y cada característica tiene una definición clara . Lo contrario son los datos no estructurados, como el audio y las imágenes. En comparación con los datos estructurados, en realidad es difícil para las computadoras comprender los datos no estructurados. A través del aprendizaje profundo y las redes neuronales, las computadoras modernas pueden comprender e interpretar mejor. Datos no estructurados, reconocimiento de voz, imágenes El reconocimiento, el procesamiento de textos en lenguaje natural y otras tecnologías surgieron en el momento histórico.

Conceptos básicos de la red neuronal en la segunda semana

Clasificación uno y dos

Problema de dos clasificaciones. Por ejemplo, ingrese una imagen y juzgue si es un gato, si es un gato, luego la salida 1, y si no lo es, la salida 0.
Inserte la descripción de la imagen aquí

¿Cómo expresa una computadora una imagen?

Para guardar una imagen en la computadora, se deben guardar tres matrices independientes , correspondientes a los tres canales de color ** rojo (R), verde (G) y azul (B) **, por ejemplo, si la imagen de entrada es 64 × 64 píxeles (hay 64 píxeles de largo y ancho), hay tres matrices de 64 × 64. Ponga todos los valores de brillo de píxeles en estas tres matrices en un vector de características X, y X se puede usar para representar esto fotografía:

X = (255,231,…, 255,134,…, 255,134,…) ^T , si la imagen es 64 × 64, entonces la dimensión total del vector X es 12288 (es decir, 64 × 64 × 3), generalmente n _x o n Representa la dimensión del vector de características de entrada.
Inserte la descripción de la imagen aquí
En el problema de clasificación binaria, el objetivo es entrenar un clasificador, que toma el vector de características x de la imagen como entrada y predice si el resultado de salida y es 1 o 0.

Los siguientes son algunos símbolos que deben usarse en el curso:

(x, y): representa una sola muestra, por ejemplo, x es un vector de características de una imagen e y es 1 o 0;

m: indica que el conjunto de entrenamiento se compone de m muestras de entrenamiento;

(x ⁽¹⁾ , y ⁽¹⁾ ): representa la entrada y salida de la muestra 1, y así sucesivamente;

X: se puede utilizar para representar la matriz compuesta por todas las x en el conjunto de entrenamiento, X = (x ⁽¹⁾ , x ⁽²⁾ , ..., x ^(m) ), la matriz tiene n _x filas y m columnas;

Y: Se puede usar para representar la matriz compuesta por todo y, Y = (y ⁽¹⁾ , y ⁽²⁾ , ..., y ^(m) ), la matriz tiene 1 fila y m columnas.

Dos, regresión logística

El algoritmo de regresión logística es un modelo de análisis de regresión lineal generalizado que se utiliza para predecir la probabilidad de que algo suceda en los problemas de aprendizaje supervisado. En los dos problemas de clasificación anteriores, ingrese una imagen de gato, denotada por x, podemos obtener la salida y ^ = P (y = 1 | x), esperamos que y ^ nos diga la probabilidad de que esta sea una imagen de gato:

x es un vector n _x- dimensional;
El parámetro w de la regresión logística es también un vector n _x- dimensional, y b es un número real;
Entonces, dado x, w, b, podemos usar la ecuación lineal para calcular y ^ = w ^T x + b.

La anterior es nuestra forma habitual de hacer regresión lineal, pero este no es un algoritmo de clasificación binaria muy bueno, porque queremos que y ^ sea la probabilidad de y = 1, por lo que y ^ debería estar entre 0 y 1 , pero es difícil Realización, porque el valor de w ^T x + b puede ser mayor que 1, o puede ser negativo. Tal probabilidad no tiene sentido . Por lo tanto, en la regresión logística, usamos la función sigmoidea para la cantidad w ^T x + b , a saber :

Y ^ = σ (en ^T x + b)

La función sigmoidea es una curva suave de 0 a 1 como se muestra en la siguiente figura:
Inserte la descripción de la imagen aquí

Usamos z para representar (w ^T x + b), la abscisa de la figura anterior representa z, entonces: y ^ = σ (z), de hecho σ (z) = 1 / (1 + e ^-z ) , It Se puede observar que si z es grande, el valor de σ es muy cercano a 1, lo cual es consistente con la expresión de la figura anterior.

Mediante el procesamiento de la función sigmoidea, cuando el valor z es un número mucho mayor que 1, la probabilidad obtenida es cercana a 1, y cuando el valor z es un número negativo, la probabilidad obtenida es cercana a 0, lo que resuelve el sin sentido problema de la probabilidad anterior.