visión por computador
Detección de objetos, segmentación semántica, clasificación de objetos
PNL de procesamiento de lenguaje natural
estructura de datos
- estructura de datos
- elemento de acceso
regresión lineal
Puede verse como una red neuronal de una sola capa con una solución explícita
mejoramiento
Descenso de gradiente, hiperparámetros: tasa de aprendizaje, tamaño del lote
regresión de clasificación
perceptrón de una sola capa, perceptrón multicapa
- El perceptrón multicapa utiliza capas ocultas y funciones de activación para obtener modelos no lineales.Las funciones de activación comúnmente utilizadas son Sigmoid, Tanh y ReLU;
- Softmax para hacer frente a problemas de clasificación múltiple
- Hiperparámetros del perceptrón multicapa: número de capas ocultas, tamaño de cada capa oculta
- Los datos del conjunto de validación y los datos del conjunto de prueba no se pueden mezclar, validación cruzada k-fold
sobreadaptación
Capacidad del modelo: la capacidad de adaptarse a varias funciones.
La complejidad del modelo de control: el número de parámetros, el rango de selección de los valores de los parámetros
Deterioro y abandono del peso
- El decaimiento del peso es para reducir la complejidad del modelo al restringir rígidamente el peso para que no exceda un cierto valor
- El método de descarte establece aleatoriamente algunos elementos de salida en 0 para controlar la complejidad del modelo, y la probabilidad de descarte es un hiperparámetro para controlar la complejidad del modelo.
estabilidad numérica
- explosión de gradiente
- gradiente de desaparición
- Mantenga la estabilidad del entrenamiento: cambie la multiplicación por suma, normalización (normalización de gradiente, recorte de gradiente), inicialización de peso razonable y funciones de activación
capa convolucional
Cada canal de salida puede reconocer un patrón específico y se pueden fusionar varios canales
capa de agrupación
El canal de entrada es igual al canal de salida, aliviando la sensibilidad de la capa convolucional a la posición
regularización
Regularización y normalización significan que el valor del peso no debe ser demasiado grande para evitar ciertos sobreajustes
Normalización por lotes
- La normalización por lotes corrige la media y la varianza en mini lotes, luego aprende las compensaciones y escalas apropiadas
- Puede acelerar la velocidad de convergencia, pero generalmente no cambia la precisión del modelo, puede usar una tasa de aprendizaje mayor para acelerar la convergencia del modelo
función de pérdida
-
Pérdida L2
-
Pérdida L1
-
Huber Rubost Pérdida de error robusto
Red residual ResNet
El bloque residual facilita el entrenamiento de redes muy profundas y puede evitar efectivamente el entrenamiento a la etapa posterior. Si el gradiente es demasiado pequeño, el entrenamiento es muy lento. A través del bloque residual, puede entrenar primero y luego volver a actualizar el gradiente.
aumento de imagen
- Genere imágenes en línea, realice mejoras aleatorias y no generará imágenes después de la mejora de imágenes
- El aumento de datos obtiene diversidad al deformar los datos para que la capacidad de generalización del modelo sea mejor. El aumento de imágenes común incluye voltear, cortar y decolorar
afinar
Finetune es un tipo de transferencia de aprendizaje, que consiste en entrenar un modelo en un conjunto de datos más grande y tomar directamente los parámetros estructurales del modelo y aplicarlos a un conjunto de datos pequeño (los dos conjuntos de datos tienen ciertas similitudes), pero en el fc final (problema de clasificación o regresión) para inicializar aleatoriamente el entrenamiento de parámetros
Caja de ancla
- El cuadro de borde (BordingBox)
primero genera una gran cantidad de cuadros de anclaje y asigna etiquetas, y cada cuadro de anclaje se usa como muestra para el entrenamiento. Use NMS para eliminar predicciones redundantes durante la predicción
Detección de objetivos
- R-cnn (red neuronal convolucional regional)
- Máscara R-cnn: si hay un número de nivel de píxel, use fcn para usar esta información
- Faster rcnn
tiene alta precisión, pero la velocidad de procesamiento es muy lenta, no tan buena como yolo (solo miras una vez) - ssd (detección de fotogramas múltiples de disparo único)
ya no se mantiene ni se desarrolla, y rara vez se usa - yolo
yolo divide la imagen uniformemente en cuadros ancla SxS, y cada cuadro ancla predice cuadros de borde B
segmentación semántica
Clasificación a nivel de píxel, dividida en fondo y otros tipos
convolución transpuesta
Se puede aumentar la altura y el ancho de la imagen de entrada, lo que se puede entender simplemente como una operación de convolución inversa, y el resultado obtenido es el opuesto a la operación de convolución.
El número de canales emitidos por la red neuronal convolucional totalmente conectada FCN = el número de categorías- Migración de estilo
Encuentre un tensor de estilo y un tensor de contenido respectivamente, tres pérdidas, estilo, contenido, ruido
actualización de hardware
modelo de secuencia
Puede usar la predicción de Markov o la predicción autorregresiva
- Preprocesamiento de texto
Convierte algunas palabras de la oración en datos que se pueden procesar - Modelado de lenguaje
Estima probabilidades conjuntas de secuencias de texto, a menudo n-gramas utilizando métodos estadísticos - RNN (Recurrent Neural Network)
almacena información de series de tiempo
. La calidad de un modelo de tipo de serie de tiempo predictivo se puede considerar como un problema de clasificación, es decir, la probabilidad del siguiente índice de token, que se puede medir por la entropía cruzada promedio
- El recorte de gradiente
se usa a menudo en el recorte de gradiente rnn para prevenir efectivamente la explosión de gradiente
Unidad Recurrente Cerrada (GRU)
Puede controlar qué es importante, qué no es importante, el mecanismo que puede prestar atención (puerta de actualización); el mecanismo que puede olvidarse (puerta de olvido)
Red de memoria a largo plazo LSTM
- Olvídate de la puerta: decrementa el valor hacia 0
- Puerta de entrada: decidir no ignorar los datos de entrada
- Puerta de salida: decida si usar el estado oculto
Redes neuronales recurrentes profundas
Las redes neuronales recurrentes profundas usan múltiples capas ocultas para una mayor no linealidad
red neuronal recurrente bidireccional
- Las redes neuronales recurrentes bidireccionales utilizan información temporal orientativa a través de capas ocultas actualizadas inversamente
- Por lo general, se usa para extraer características y completar los espacios en blanco de la secuencia, no para predecir el futuro.
codificador-decodificador
Seq2seq
Elmo modelo pre-entrenado
Predicción hacia adelante y hacia atrás, polisemia
- Modelo de lenguaje unidireccional GPT
- Modelo de lenguaje bidireccional BERT
búsqueda de haz
Beam search almacena los k mejores candidatos en cada búsqueda
- Cuando k=1, es una búsqueda codiciosa
- Cuando k=n, es una búsqueda exhaustiva
mecanismo de atención
Podemos ver el mecanismo de Atención de esta manera (la imagen de referencia es la imagen de arriba): imagine que los elementos constituyentes en la Fuente consisten en una serie de pares de datos <Clave, Valor>. En este momento, dado un elemento Consulta en el destino, pase Calcular la similitud o correlación entre la consulta y cada clave, obtener el coeficiente de peso de cada clave correspondiente al valor y luego realizar la suma ponderada en el valor para obtener el valor de atención final. Entonces, en esencia, el mecanismo de Atención es ponderar y sumar los valores de Valor de los elementos en la Fuente, y Consulta y Clave se utilizan para calcular el coeficiente de peso correspondiente al Valor.
seq2seq usando el ingenio de atención
mecanismo de autoatención
El modelo de mecanismo de autoatención es bueno para procesar textos extremadamente largos, pero el costo de cálculo es extremadamente alto, ya que requiere miles de GPU para calcular al mismo tiempo. Cuanto más largo es el texto, más recursos se consumen, lo cual es una relación cuadrada.