05 Aprendizaje supervisado - red neuronal

  1. Modelo lineal

    Dada una entrada n-dimensional: x = [ x 1 , x 1 , … , xn ] T x = {[{x_1},{x_1}, \ldots ,{x_n}]^T}X=[ X1,X1,,Xnorte]t

    Un modelo lineal tiene un peso de n dimensiones y un sesgo escalar: w = [ w 1 , w 1 , … , wn ] T , bw = {[{w_1},{w_1}, \ldots ,{w_n}]^T }, segundow=[ w1,w1,,wnorte]T ,b

    La salida es la suma ponderada de las entradas: y = w 1 x 1 + w 2 x 2 + … + wnxn + by = {w_1}{x_1} + {w_2}{x_2} + \ldots + {w_n}{x_n } + by=w1X1+w2X2++wnorteXnorte+b , representación vectorial:y = < w, x > + by = < w,x > + by=<w ,X>+ b

    1.1 Modelo lineal generalizado

    Además de hacer que el valor de predicción del modelo se aproxima directamente a la marca y del valor real, también podemos aproximarlo a la derivada de y, que es el modelo lineal generalizado (modelo lineal generalizado).

    y = g − 1 ( w T x + b ) y = {g^{ - 1}}({w^T}x + b)y=gramo1 (wT x+segundo )

    Entre ellas, g (.) se denomina función de enlace y debe ser monotónicamente diferenciable. Utilizando modelos lineales generalizados podemos lograr poderosas capacidades de mapeo de funciones no lineales. Por ejemplo, regresión log-lineal (regresión log-lineal), sea g (.) = In (.), el valor predicho del modelo en este momento corresponde al cambio de la marca del valor verdadero en la escala exponencial.

    1.2 Función sigmoidea

    σ ( z ) \sigma (z)σ ( z ) representa una función logística de uso común (función logística) como función sigmoidea (función sigmoidea), entonces:

    σ ( z ) = g ( z ) = 1 1 + e − z , z = w T x + b \sigma (z) = g(z) = {1 \over {1 + {e^{ - z}} }},z = {w^T}x + bσ ( z )=gramo ( z )=1+miz1,z=wT x+b

    En conjunto, obtenemos la función de hipótesis para el modelo de regresión logística:
    L ( y ^ , y ) = − y log ⁡ ( y ^ ) − ( 1 − y ) log ⁡ ( 1 − y ^ ) \mathrm{L}( \ hat{y}, y)=-y \log (\hat{y})-(1-y) \log (1-\hat{y})L (y^,y )=yiniciar sesión (y^)( 1y )iniciar sesión ( 1y^)

  2. Clasificación y regresión

  3. modelo de perceptrón

    Modelo matemático de perceptrón de capa única: y = f ( ∑ i = 1 N wixi + b ) y = f(\sum\limits_{i = 1}^N { { w_i }{x_i}} + b)y=f (yo = 1nortewyoXyo+segundo )

    Entre ellos, f se llama función de activación.

    En 1986, los científicos dirigidos por Rumelhart y McClielland propusieron el concepto de red neuronal BP (Back Propagation), que es una red neuronal de alimentación directa de múltiples capas entrenada de acuerdo con el algoritmo de retropropagación de errores, y actualmente es la red neuronal más utilizada.

    3.1 Datos de entrenamiento

  • Recopile algunos puntos de datos para decidir los valores de los parámetros (ponderaciones y sesgos), como las casas vendidas en los últimos 6 meses. Esto se llama datos de entrenamiento. Por lo general, cuanto más, mejor Supongamos que tenemos n muestras, recuerde
    x = [ x 1 , x 1 , … , xn ] T x = {[{x_1},{x_1}, \ldots , {x_n} ]^T}X=[ X1,X1,,Xnorte]Ty = [ y 1 , y 1 , … , yn ] T y = {[{y_1},{y_1}, \ldots ,{y_n}]^T}y=[ y1,y1,,ynorte]t

    3.2 Medición de la calidad de la estimación

    Compare valores reales y estimados, como precios de venta de viviendas y valores de tasación.

    Suponiendo que y es el valor real, y ^ \hat yy^son estimaciones, podemos comparar:
    ℓ ( y , y ^ ) = 1 2 ( y − y ^ ) 2 \ell(y, \hat{y})=\frac{1}{2}(y-\hat { y})^2( y ,y^)=21( yy^)2Especifique una ecuación
    simple: l ( X , y , w , b ) = 1 2 n ∑ i = 1 n ( yi − ⟨ xi , w ⟩ − b ) 2 = 1 2 n ∥ y − X w − b ∥ 2 \ ell(\mathbf{X}, \mathbf{y}, \mathbf{w}, b)=\frac{1}{2n}\sum_{i=1}^n\left(y_i-\ left\angle\ mathbf{x}_i, \mathbf{w}\right\angle-b\right)^2=\frac{1}{2 n}\|\mathbf{y}-\mathbf{X}\ mathbf{w} -b\|^2

    ( X ,y ,w ,segundo )=2 norte1yo = 1norte( yyo⟨x _yo,w segundo )2=2 norte1yxwsegundo 2
    Minimizar la pérdida para aprender los parámetros:
    w ∗ , b ∗ = arg ⁡ min ⁡ w , b ℓ ( X , y , w , b ) \mathbf{w}^*, \mathbf{b}^*=\arg \ min _{\mathbf{w}, b} \ell(\mathbf{X}, \mathbf{y}, \mathbf{w}, b)w ,b=arg _w , segundomin( X ,y ,w ,segundo )

    3.3 Descenso de gradiente

    • elija un valor inicial w 0 {w_0}w0
    • Repetir parámetros de iteración t=1,2,3
      wt = wt − 1 − η ∂ ℓ ∂ wt − 1 {w_t} = {w_{t - 1}} - \eta { { \partial \ ell } \over {\partial {w_ {t - 1}}}}wt=wt - 1elwt - 1
    • A lo largo de la dirección del gradiente aumentará el valor de la función de pérdida.
    • Tasa de aprendizaje: un hiperparámetro para el tamaño del paso

优点:

1. Capaz de adaptarse y aprender de forma independiente. BP puede actualizar las reglas de acuerdo con los parámetros preestablecidos y, al ajustar continuamente los parámetros en la red neuronal, ha logrado el resultado más deseado.

2. Poseer una gran capacidad de mapeo no lineal.

3. La propagación hacia atrás del error adopta la regla de la cadena madura y el proceso de derivación es riguroso y científico.

4. La capacidad de generalización del algoritmo es muy fuerte.

缺点:

1. Hay muchos parámetros en la red neuronal BP y cada iteración necesita actualizar una gran cantidad de umbrales y pesos, por lo que la velocidad de convergencia es relativamente lenta.

2. No existe un criterio claro para el número de nodos contenidos en la capa oculta de la red, es necesario establecer continuamente el número de nodos a intentar componer y finalmente determinar el
número de nodos en la capa oculta de acuerdo con los resultados del error de red

3. El algoritmo BP es un algoritmo de descenso de gradiente más rápido, por lo que es fácil caer en el problema del mínimo local.

  1. función de activación

En el modelo de aprendizaje profundo, generalmente estamos acostumbrados a pasar por una función de activación antes de que los resultados del cálculo de cada capa de red neuronal se envíen a la siguiente capa de red neuronal.

(1) Función Sigmod: f ( x ) = 1 1 + e − xf(x) = {1 \over {1 + { { \ rm{e}}^{ - x}}}}f ( x )=1+mi−x _1

inserte la descripción de la imagen aquí

(2)Tanh函数: tanh ⁡ ( x ) = ex − e − x ( ex + e − x ) = 2 ∗ sig mod ( 2 x ) − 1 \tanh (x) = { { {e^x} - { e^{ - x}}} \over {({e^x} + {e^{ - x}})}} = 2*sig\bmod (2x) - 1tanh ( x )=( miX+mix )miXmi−x _=2si g _modificación( 2x ) _1

inserte la descripción de la imagen aquí

(3) función relu: f ( x ) = max ⁡ ( 0 , x ) f(x) = \max (0,x)f ( x )=máximo ( 0 ,x )

inserte la descripción de la imagen aquí

  1. Maldición de dimensión

El modelo de red neuronal puede aumentar o disminuir fácilmente la dimensión de los datos. A medida que aumenta el número de características, la densidad de la muestra disminuye. Si la dimensión continúa aumentando, se sobreajustará y no será adecuado para situaciones reales.

  1. Desajuste y sobreajuste

    El sobreajuste y el desajuste se pueden definir mediante errores de entrenamiento y errores de generalización:

    训练误差: El error calculado por el modelo en el conjunto de entrenamiento.

    泛化误差: La expectativa del error del modelo cuando el modelo se aplica a un número infinito de muestras de datos también extraídas de la distribución de la muestra original.

    过拟合: El error de entrenamiento del modelo es pequeño, pero el error de generalización es grande

    欠拟合: El error de entrenamiento y el error de generalización del modelo son grandes

    Método de tratamiento de sobreajuste:
    (1) Regularización: regularización, pero al reducir el tamaño de los parámetros, puede mejorar o reducir el problema de sobreajuste
    (2) Mejora de los datos: se mejoran la calidad, cantidad y dificultad de los datos
    (3 ) Reducción de dimensionalidad: es decir, descartar algunas características que no pueden ayudarnos a predecir correctamente. Se puede seleccionar manualmente qué funciones conservar o se pueden utilizar algunos algoritmos de selección de modelos como ayuda.
    (4) Método de aprendizaje integrado: el aprendizaje integrado consiste en integrar varios modelos juntos para reducir el riesgo de sobreajuste de un solo modelo.

    Cómo lidiar con el sobreajuste:

    (1) Agregar nuevas características
    (2) Aumentar la complejidad del modelo
    (3) Reducir el coeficiente de regularización

  2. Regular

La regularización en el aprendizaje profundo puede verse como una forma de prevenir el sobreajuste al limitar la complejidad del modelo. Primero, la complejidad del modelo está determinada por el tamaño de los parámetros del modelo y el rango de valores posibles de los parámetros. Por lo tanto, el método de regularización se divide aproximadamente en dos direcciones:
una dirección está dedicada a 约束模型参数量, como el abandono, y
la otra dirección está dedicada a 约束模型参数的取值范围, como la caída de peso.

权重衰减方法:
(1) Utilice la norma cuadrática media como límite estricto
para controlar la capacidad del modelo limitando el rango de selección de valores de parámetros:
min ⁡ ℓ ( w , b ) \min \ell (w,b)min( w ,b ) sujeto a∥ w ∥ 2 ≤ θ {\left\| {\rm{w}} \right\|^2} \le \thetaw 2θ
generalmente no limita b

(2) Utilice la norma cuadrática media como límite flexible

Para cada θ \thetaθ , se puede encontrarλ \lambdaλ , de modo que la función objetivo anterior es equivalente a la siguiente fórmula:

min ⁡ ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell (w,b) + {\lambda \over 2}{\left\| w \derecha\|^2}min( w ,segundo )+2yow 2

hiperparámetro λ \lambdaλ controla la importancia del término de regularización:

  • λ\lambdaλ = 0 no tiene ningún efecto
  • λ → ∞ , w ∗ → 0 \lambda \to \infty ,w* \to 0yo,w 0
  1. aumento de datos

  2. estabilidad numérica

Este problema de inestabilidad numérica se llama suma en el 梯度消失proceso de entrenamiento de aprendizaje profundo 梯度爆炸.

Desaparición del gradiente: el fenómeno de que el gradiente se acerca a 0 debido a la multiplicación y el entrenamiento no progresa en este momento.

Explosión de gradiente: debido a la multiplicación, el resultado del cálculo excede el rango de datos que el tipo de datos puede registrar, lo que genera un error. La forma de prevenir la causa de la inestabilidad numérica es normalizar los datos.

Procesamiento de normalización de datos:

(1) Normalización (normalización máximo-mínimo): mapeo de datos al intervalo [0,1]

x ∗ = x − x min ⁡ x max ⁡ − x min ⁡ x* = { { x - {x_{\min }}} \over { { x_{\max }} - {x_{\min }}}}x =Xm a xXmi n _XXmi n _

El propósito de la normalización de datos es hacer que la influencia de cada característica en la variable objetivo sea consistente, y los datos de la característica se escalarán y cambiarán, por lo que la normalización de datos cambiará la distribución de los datos de la característica.

(2) Estandarización de Z-Score: el valor medio de los datos procesados ​​es 0 y la varianza es 1

x ∗ = x − μ σ x* = { {x - \mu } \over \sigma }x =pagXmetro

Estandarización de datos Para tener comparabilidad entre diferentes características, la distribución de los datos de características después de la transformación estandarizada no ha cambiado.
Es decir, cuando el rango de valores o la unidad de la característica de datos es bastante diferente, es mejor realizar cierta estandarización.

  1. Familia de redes neuronales

    1. CNN
    2. RNN
      • Análisis semántico sintáctico
      • recuperación de información
      • resumen automático
      • minería de datos de texto
      • respuesta automática a preguntas
      • máquina traductora
      • mapa del conocimiento
      • análisis de emociones
      • similitud de texto
      • corrección de errores de texto
    3. GNN
      • diseño de chips
      • Análisis de escenarios y razonamiento de problemas.
      • Sistema de recomendación (retrato de usuario)
      • La detección de fraude está relacionada con el control de riesgos
      • mapa del conocimiento
      • Previsión del flujo del tráfico rodado
      • Conducción autónoma (UAV y otros escenarios)
      • Escenas químicas, médicas y otras.
      • Escenarios biológicos, farmacéuticos y otros.
      • Red social
    4. SIN EMBARGO
      • imagen súper resolución
      • creación artística
      • Traducción de imagen a imagen (transferencia de estilo)
      • Traducción de texto a imagen
      • edición de fotos
      • traducción de ropa
      • foto a emoji
      • fusión de fotos
      • Reparación de fotos

Supongo que te gusta

Origin blog.csdn.net/qq_45801179/article/details/132392882
Recomendado
Clasificación