Un poco de reflexión | Hablando del mecanismo de "retroalimentación" en la IA

Prólogo : El mecanismo de retroalimentación positiva y negativa en el mundo biológico puede promover la evolución biológica y proporcionar una garantía para la buena ecología de la biosfera. Este artículo explora la encarnación del mecanismo de retroalimentación en la red neuronal profunda. Debido al conocimiento superficial del autor, solo se enumeran los siguientes ejemplos de "retroalimentación" dentro del alcance de la cognición personal. (El primer borrador de este artículo nació el 12 de diciembre de 2022)


propagación hacia atrás

La retropropagación (Back Propagation, BP) trae actualizaciones de gradiente y luego actualiza los parámetros de la red neuronal para mejorar la capacidad de ajuste de la red neuronal.

Variante: BPTT (propagación hacia atrás en el tiempo)

Redes generativas adversarias (GAN)

GAN se compone de generador + discriminador. El resultado generado por el discriminador se puede utilizar como retroalimentación del efecto de generación del generador para mejorar el rendimiento de generación del generador. Con la mejora de la capacidad del generador, su salida y los datos reales ser alimentado al discriminador juntos. El discriminador mejora la capacidad de discriminación del discriminador. Los dos se complementan en el crecimiento del otro y continúan mejorando.

RLHF en ChatGPT

La red neuronal utilizada por ChatGPT es InstructGPT, y la idea central del método de aprendizaje por refuerzo basado en retroalimentación artificial detrás de ella es: durante el proceso de capacitación, la evaluación humana corrige los resultados generados para garantizar que el texto generado sea positivo y libre de discriminación de género y otro contenido negativo, es decir, RLHF (aprendizaje por refuerzo a partir de retroalimentación humana): utilice métodos de aprendizaje por refuerzo para optimizar directamente los modelos de lenguaje utilizando señales de retroalimentación humana. Se trata del concepto de Human-in-the-Loop (bucle hombre-máquina). Según el artículo , los seres humanos desempeñan un papel importante en la configuración de las máquinas y facilitan su desarrollo.

Modelo Profesor-Estudiante

Los resultados generados del modelo de maestro se pueden utilizar como evaluación del modelo de estudiante para mejorar el desempeño del modelo de estudiante.

Posdata : Sin retroalimentación, no hay progreso.


Referencias

  1. Algoritmo detallado de red neuronal 04: Red neuronal de retroalimentación (Hopfield, BAM, BM, RBM) - Blog de Datamonday - Blog de CSDN
  2. Human-in-the-Loop en diseño de productos inteligentes - Zhihu (zhihu.com)
  3. Uso del control de retroalimentación para "hacer frente" a la incertidumbre en la era inteligente----Academia China de Ciencias (cas.cn)
  4. Interpretación del método de aprendizaje por refuerzo (RLHF) basado en retroalimentación artificial detrás de ChatGPT - Zhihu (zhihu.com)

Supongo que te gusta

Origin blog.csdn.net/qq_36332660/article/details/132335499
Recomendado
Clasificación