Componentes del modelo de aprendizaje profundo Serie 1: Resumen de los elementos esenciales para construir un modelo profundo

Aplicaciones de aprendizaje profundo:

Visión por computadora, procesamiento de lenguaje natural, reconocimiento de voz y otros campos. [Se recomienda elegir una dirección determinada y luego aprender los componentes del modelo relacionados]

Las tecnologías de vanguardia incluyen redes antagónicas generativas, mecanismos de autoatención, aprendizaje intermodal, etc. [Esta es la fuente de la innovación del papel]

Dominado antes de aprender por defecto:

1. Configuración del entorno de aprendizaje profundo de pytorch

2. Los conceptos básicos para ejecutar un código simple de aprendizaje profundo

Objetivos de aprendizaje: Sobre la base de modelos anteriores, modifique y construya su propio modelo

1. Composición macro del modelo de aprendizaje profundo

1. Preprocesamiento de datos

2. Modelo de diseño

3. Habilidades de entrenamiento

En segundo lugar, la simplificación del modelo de aprendizaje profundo para dominar los elementos de los puntos de conocimiento.

1. ¿Qué es el aprendizaje profundo?

Deje que la máquina use el modelo de aprendizaje profundo para aprender conocimientos y luego resolver una determinada tarea. Por lo tanto, el núcleo del aprendizaje profundo es aprender los componentes del modelo, aprender a modificar y construir modelos.

2. Esto lleva a la siguiente pregunta, ¿cuáles son los elementos centrales del modelo de aprendizaje? En otras palabras, para resolver diferentes tareas, ¿qué es lo más importante desde la perspectiva del modelo?

Capacidades de los extractores de características. Especialmente después de la popularidad del aprendizaje profundo, esto es aún más destacado. Debido a que la mayor ventaja del aprendizaje profundo es "extremo a extremo", elija un buen extractor de funciones, elija un buen extractor de funciones, elija un buen extractor de funciones, aliméntelo con una gran cantidad de datos de entrenamiento, establezca Establezca el objetivo de optimización (función de pérdida), diga es lo que quieres que haga... Entonces crees que no tienes que esperar el resultado, ¿verdad? Entonces eres la persona más optimista que he visto en todo el universo... De hecho, pasas mucho tiempo ajustando parámetros...

Palabras clave: buenos datos de entrenamiento, extractor de funciones, objetivo de optimización (objetivo de tarea), habilidades de ajuste de parámetros

El marco de conocimiento se ampliará con las palabras clave anteriores:

1. Elementos de conocimiento necesarios para los datos de entrenamiento

Preprocesamiento de datos: el preprocesamiento de datos es el paso previo al entrenamiento del modelo de aprendizaje profundo, que incluye limpieza de datos, normalización de datos, mejora de datos, etc.

2. Tipo de extractor de funciones [¿qué módulos pequeños se componen de extracción de funciones? ------Pequeños puntos de conocimiento relacionados con convolución, agrupación, sobremuestreo, etc.]

a.RNN

b.CNN

c.transformer [ componentes clave de chatgpt, que se presentarán más adelante ]

......

Por ejemplo:

Componentes de modelos grandes --- Capas de red neuronal (Capas de red neuronal): La capa de red neuronal es uno de los componentes centrales del modelo de aprendizaje profundo, que puede realizar la extracción y conversión de características de datos. Las capas de red neuronal comúnmente utilizadas incluyen capas convolucionales, capas de agrupación, capas totalmente conectadas, etc.

Widget de modelo --- Funciones de activación (Funciones de activación): Las funciones de activación son un componente importante en una capa de red neuronal, que convierte la entrada de una neurona en una salida. Las funciones de activación comúnmente utilizadas incluyen sigmoid, tanh, ReLU, etc.

3. Los elementos del punto de conocimiento del objetivo de optimización [el tema se presentará más adelante]

Funciones de pérdida: la función de pérdida es un componente importante del entrenamiento del modelo de aprendizaje profundo, que se utiliza para medir el error entre la salida del modelo y la etiqueta real. Las funciones de pérdida comúnmente utilizadas incluyen Error cuadrático medio (Error cuadrático medio), Entropía cruzada (Entropía cruzada), etc.

Algoritmos de optimización: los algoritmos de optimización se utilizan para actualizar los parámetros del modelo para minimizar la función de pérdida. Los algoritmos de optimización comúnmente utilizados incluyen Stochastic Gradient Descent, Adam, etc.

4. Elementos de conocimiento de las habilidades de ajuste de parámetros.

Técnicas de regularización: Las técnicas de regularización se utilizan para evitar el sobreajuste del modelo. Las técnicas de regularización comúnmente utilizadas incluyen la regularización L1, L2, abandono, etc.

Normalización por lotes: el procesamiento por lotes es una tecnología para acelerar el entrenamiento de modelos. Puede normalizar los datos de entrada y hacer que el entrenamiento de modelos sea más estable.