Resumen de los detalles del aprendizaje profundo

visión por computador

Detección de objetos, segmentación semántica, clasificación de objetos

PNL de procesamiento de lenguaje natural

estructura de datos

  • estructura de datos
    inserte la descripción de la imagen aquí
  • elemento de acceso
    inserte la descripción de la imagen aquí

regresión lineal

Puede verse como una red neuronal de una sola capa con una solución explícita

mejoramiento

Descenso de gradiente, hiperparámetros: tasa de aprendizaje, tamaño del lote

regresión de clasificación

perceptrón de una sola capa, perceptrón multicapa

  • El perceptrón multicapa utiliza capas ocultas y funciones de activación para obtener modelos no lineales.Las funciones de activación comúnmente utilizadas son Sigmoid, Tanh y ReLU;
  • Softmax para hacer frente a problemas de clasificación múltiple
  • Hiperparámetros del perceptrón multicapa: número de capas ocultas, tamaño de cada capa oculta
  • Los datos del conjunto de validación y los datos del conjunto de prueba no se pueden mezclar, validación cruzada k-fold

sobreadaptación

inserte la descripción de la imagen aquí

Capacidad del modelo: la capacidad de adaptarse a varias funciones.

inserte la descripción de la imagen aquí

La complejidad del modelo de control: el número de parámetros, el rango de selección de los valores de los parámetros

Deterioro y abandono del peso

  • El decaimiento del peso es para reducir la complejidad del modelo al restringir rígidamente el peso para que no exceda un cierto valor
  • El método de descarte establece aleatoriamente algunos elementos de salida en 0 para controlar la complejidad del modelo, y la probabilidad de descarte es un hiperparámetro para controlar la complejidad del modelo.

estabilidad numérica

  • explosión de gradiente
  • gradiente de desaparición
  • Mantenga la estabilidad del entrenamiento: cambie la multiplicación por suma, normalización (normalización de gradiente, recorte de gradiente), inicialización de peso razonable y funciones de activación

capa convolucional

Cada canal de salida puede reconocer un patrón específico y se pueden fusionar varios canales

capa de agrupación

El canal de entrada es igual al canal de salida, aliviando la sensibilidad de la capa convolucional a la posición

regularización

Regularización y normalización significan que el valor del peso no debe ser demasiado grande para evitar ciertos sobreajustes

Normalización por lotes

  • La normalización por lotes corrige la media y la varianza en mini lotes, luego aprende las compensaciones y escalas apropiadas
  • Puede acelerar la velocidad de convergencia, pero generalmente no cambia la precisión del modelo, puede usar una tasa de aprendizaje mayor para acelerar la convergencia del modelo

función de pérdida

  1. Pérdida L2
    inserte la descripción de la imagen aquí

  2. Pérdida L1
    inserte la descripción de la imagen aquí

  3. Huber Rubost Pérdida de error robusto
    inserte la descripción de la imagen aquí

Red residual ResNet

El bloque residual facilita el entrenamiento de redes muy profundas y puede evitar efectivamente el entrenamiento a la etapa posterior. Si el gradiente es demasiado pequeño, el entrenamiento es muy lento. A través del bloque residual, puede entrenar primero y luego volver a actualizar el gradiente.

aumento de imagen

  • Genere imágenes en línea, realice mejoras aleatorias y no generará imágenes después de la mejora de imágenes
  • El aumento de datos obtiene diversidad al deformar los datos para que la capacidad de generalización del modelo sea mejor. El aumento de imágenes común incluye voltear, cortar y decolorar

afinar

Finetune es un tipo de transferencia de aprendizaje, que consiste en entrenar un modelo en un conjunto de datos más grande y tomar directamente los parámetros estructurales del modelo y aplicarlos a un conjunto de datos pequeño (los dos conjuntos de datos tienen ciertas similitudes), pero en el fc final (problema de clasificación o regresión) para inicializar aleatoriamente el entrenamiento de parámetros
inserte la descripción de la imagen aquí

Caja de ancla

  • El cuadro de borde (BordingBox)
    inserte la descripción de la imagen aquí
    primero genera una gran cantidad de cuadros de anclaje y asigna etiquetas, y cada cuadro de anclaje se usa como muestra para el entrenamiento. Use NMS para eliminar predicciones redundantes durante la predicción

Detección de objetivos

  • R-cnn (red neuronal convolucional regional)
  • Máscara R-cnn: si hay un número de nivel de píxel, use fcn para usar esta información
  • Faster rcnn
    tiene alta precisión, pero la velocidad de procesamiento es muy lenta, no tan buena como yolo (solo miras una vez)
  • ssd (detección de fotogramas múltiples de disparo único)
    ya no se mantiene ni se desarrolla, y rara vez se usa
  • yolo
    yolo divide la imagen uniformemente en cuadros ancla SxS, y cada cuadro ancla predice cuadros de borde B

segmentación semántica

Clasificación a nivel de píxel, dividida en fondo y otros tipos
inserte la descripción de la imagen aquí

convolución transpuesta

Se puede aumentar la altura y el ancho de la imagen de entrada, lo que se puede entender simplemente como una operación de convolución inversa, y el resultado obtenido es el opuesto a la operación de convolución.
inserte la descripción de la imagen aquí


  • inserte la descripción de la imagen aquí
    El número de canales emitidos por la red neuronal convolucional totalmente conectada FCN = el número de categorías
  • Migración de estilo
    Encuentre un tensor de estilo y un tensor de contenido respectivamente, tres pérdidas, estilo, contenido, ruido

actualización de hardware

inserte la descripción de la imagen aquí

modelo de secuencia

Puede usar la predicción de Markov o la predicción autorregresiva

  • Preprocesamiento de texto
    Convierte algunas palabras de la oración en datos que se pueden procesar
  • Modelado de lenguaje
    Estima probabilidades conjuntas de secuencias de texto, a menudo n-gramas utilizando métodos estadísticos
  • RNN (Recurrent Neural Network)
    almacena información de series de tiempo
    . La calidad de un modelo de tipo de serie de tiempo predictivo se puede considerar como un problema de clasificación, es decir, la probabilidad del siguiente índice de token, que se puede medir por la entropía cruzada promedio
    inserte la descripción de la imagen aquí
  • El recorte de gradiente
    se usa a menudo en el recorte de gradiente rnn para prevenir efectivamente la explosión de gradiente

Unidad Recurrente Cerrada (GRU)

Puede controlar qué es importante, qué no es importante, el mecanismo que puede prestar atención (puerta de actualización); el mecanismo que puede olvidarse (puerta de olvido)

Red de memoria a largo plazo LSTM

  • Olvídate de la puerta: decrementa el valor hacia 0
  • Puerta de entrada: decidir no ignorar los datos de entrada
  • Puerta de salida: decida si usar el estado oculto

Redes neuronales recurrentes profundas

inserte la descripción de la imagen aquí
Las redes neuronales recurrentes profundas usan múltiples capas ocultas para una mayor no linealidad

red neuronal recurrente bidireccional

inserte la descripción de la imagen aquí

  • Las redes neuronales recurrentes bidireccionales utilizan información temporal orientativa a través de capas ocultas actualizadas inversamente
  • Por lo general, se usa para extraer características y completar los espacios en blanco de la secuencia, no para predecir el futuro.

codificador-decodificador

inserte la descripción de la imagen aquí

Seq2seq

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Elmo modelo pre-entrenado

Predicción hacia adelante y hacia atrás, polisemia

  • Modelo de lenguaje unidireccional GPT
  • Modelo de lenguaje bidireccional BERT

búsqueda de haz

Beam search almacena los k mejores candidatos en cada búsqueda

  • Cuando k=1, es una búsqueda codiciosa
  • Cuando k=n, es una búsqueda exhaustiva

mecanismo de atención

inserte la descripción de la imagen aquí

Podemos ver el mecanismo de Atención de esta manera (la imagen de referencia es la imagen de arriba): imagine que los elementos constituyentes en la Fuente consisten en una serie de pares de datos <Clave, Valor>. En este momento, dado un elemento Consulta en el destino, pase Calcular la similitud o correlación entre la consulta y cada clave, obtener el coeficiente de peso de cada clave correspondiente al valor y luego realizar la suma ponderada en el valor para obtener el valor de atención final. Entonces, en esencia, el mecanismo de Atención es ponderar y sumar los valores de Valor de los elementos en la Fuente, y Consulta y Clave se utilizan para calcular el coeficiente de peso correspondiente al Valor.
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

seq2seq usando el ingenio de atención

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

mecanismo de autoatención

El modelo de mecanismo de autoatención es bueno para procesar textos extremadamente largos, pero el costo de cálculo es extremadamente alto, ya que requiere miles de GPU para calcular al mismo tiempo. Cuanto más largo es el texto, más recursos se consumen, lo cual es una relación cuadrada.

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

mejoramiento

inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/weixin_45277161/article/details/129328691
Recomendado
Clasificación