Un artículo para comprender el principio de funcionamiento de modelos grandes: tomando ChatGPT como ejemplo

escribir delante

Después de que el modelo ChatGPT saliera a la luz el 30 de noviembre de 2022, inmediatamente causó revuelo en todo el mundo. Tanto los profesionales como los no practicantes de la IA hablan sobre la impactante experiencia interactiva de ChatGPT y el sorprendente contenido generado. Esto ha hecho que el público en general se dé cuenta nuevamente del potencial y el valor de la inteligencia artificial. Para los profesionales de la IA, el modelo ChatGPT se ha convertido en una expansión de ideas. Los modelos grandes ya no son sólo juguetes para las clasificaciones. Todos reconocen la importancia de los datos de alta calidad y creen firmemente que "por más inteligencia artificial que haya, habrá tanta tanta inteligencia como las que hay." ".

El modelo ChatGPT es demasiado bueno. En muchas tareas, incluso datos de muestra cero o de pocas muestras pueden lograr resultados SOTA, lo que hace que muchas personas recurran a la investigación de modelos grandes.

No solo Google ha propuesto el modelo Bard para comparar ChatGPT, sino que también han surgido muchos modelos chinos grandes en China, como "Wen Xin Yi Yan" de Baidu, "Tongyi Qianwen" de Alibaba, "RiRiXin" de SenseTime, Zhihu "Zhihaitu AI", Tsinghua. "ChatGLM" de la Universidad, "MOSS" de la Universidad de Fudan, "Llama1&Llama2" de Meta, etc.

Después de la llegada del modelo Alpaca, se demostró que, aunque el modelo con 7 mil millones de parámetros no puede lograr el efecto de ChatGPT, ha reducido en gran medida el costo de la potencia informática de los modelos grandes, lo que hace posible que los usuarios comunes y las empresas comunes utilicen grandes modelos. Los problemas de datos que se han enfatizado anteriormente se pueden obtener a través de la interfaz GPT-3.5 o GPT-4, y la calidad de los datos también es bastante alta. Si solo necesita un modelo de efecto básico, no es tan importante si los datos se calibran nuevamente con precisión (por supuesto, para obtener mejores efectos, se necesitan datos más precisos).

1.Modelo de arquitectura transformadora

La esencia de los modelos de lenguaje previamente entrenados es obtener mejores resultados en subtareas posteriores al aprender expresiones universales del lenguaje a partir de cantidades masivas de datos. A medida que los parámetros del modelo continúan aumentando, muchos modelos de lenguaje previamente entrenados también se denominan modelos de lenguaje grande (Large Language Model, LLM). Diferentes personas tienen diferentes definiciones de "grande". Es difícil decir cuántos modelos de parámetros son modelos de lenguaje grandes. Por lo general, no existe una distinción forzada entre modelos de lenguaje previamente entrenados y modelos de lenguaje grandes.
Insertar descripción de la imagen aquí

Los modelos de lenguaje previamente entrenados generalmente se dividen en modelos de arquitectura solo codificador, modelos de arquitectura solo decodificador y modelos de arquitectura codificador-decodificador según la estructura de red del modelo subyacente. Entre ellos, solo los modelos de arquitectura Encoder incluyen, entre otros, BERT, RoBerta, Ernie, SpanBert, AlBert, etc.; solo los modelos de arquitectura Decoder incluyen, entre otros, GPT, CPM, PaLM, OPT, Bloom, Llama, etc. ; Los modelos de arquitectura codificador-decodificador incluyen, entre otros, Limitado a Mass, Bart, T5, etc.

Insertar descripción de la imagen aquí

2.Principio de ChatGPT

El proceso general del entrenamiento de ChatGPT se divide principalmente en tres etapas: la etapa de preentrenamiento y aprendizaje rápido, la etapa de evaluación de resultados y modelado de recompensas, y la etapa de autoevolución del aprendizaje por refuerzo; las tres etapas tienen una clara división del trabajo, realizando el modelo del período de imitación, el período de disciplina y la transición a la fase de autonomía.

Insertar descripción de la imagen aquí

En la primera etapa de imitación, el modelo se enfoca en aprender varias tareas basadas en comandos. En esta etapa, el modelo no tiene conciencia de autodiscriminación y se trata más de imitar comportamientos artificiales. Crea su propio comportamiento mediante el aprendizaje continuo de los resultados de las anotaciones humanas. Tiene cierto grado de inteligencia. Sin embargo, la mera imitación a menudo convierte el comportamiento de aprendizaje de la máquina en un niño pequeño.

En la segunda fase del período de la disciplina, el contenido de optimización ha experimentado un cambio direccional, cambiando el enfoque de educar el contenido de las respuestas de las máquinas a educar la calidad de las respuestas de las máquinas. En la primera etapa, el objetivo es esperar que la máquina utilice la entrada X para imitar y aprender a generar Y', y esforzarse por hacer que Y' sea consistente con la Y originalmente etiquetada. Luego, en la segunda etapa, el objetivo es esperar que cuando varios modelos generen múltiples resultados (Y1, Y2, Y3, Y4) para X, puedan juzgar los pros y los contras de múltiples resultados por sí mismos.

Cuando el modelo tiene cierta capacidad de juicio, se considera que ha completado la segunda etapa de aprendizaje y puede ingresar a la tercera etapa, el período autónomo. En el período autónomo, el modelo necesita completar su autoevolución a través de la interacción izquierda-derecha, es decir, por un lado, genera automáticamente múltiples resultados de salida y, por otro lado, juzga la calidad de diferentes resultados y los evalúa. las diferencias del modelo en función de los efectos de diferentes salidas, y las optimiza y mejora. Genera automáticamente los parámetros del modelo del proceso, completando así el aprendizaje de autorrefuerzo del modelo.

En resumen, las tres etapas de ChatGPT también se pueden comparar con las tres etapas del crecimiento humano: el propósito de la etapa de imitación es "conocer los principios de la naturaleza", el propósito de la etapa de disciplina es "distinguir el bien del mal". , y el propósito de la etapa de autonomía es "comprender todas las cosas".

3. Aprendizaje rápido y aparición de grandes capacidades de modelo.

Después del lanzamiento del modelo ChatGPT, se hizo popular en todo el mundo por su expresión conversacional fluida, su sólido almacenamiento de contexto, su rica creación de conocimiento y su capacidad para resolver problemas de manera integral, refrescando la comprensión del público sobre la inteligencia artificial. Conceptos como aprendizaje rápido, aprendizaje en contexto y cadena de pensamiento (CoT) también han salido a la luz pública. Incluso existe en el mercado una profesión llamada ingeniero de avisos, que se especializa en escribir plantillas de avisos para tareas específicas.

La mayoría de los académicos consideran que el aprendizaje de sugerencias es el cuarto paradigma del procesamiento del lenguaje natural después de la ingeniería de funciones, el aprendizaje profundo y el preentrenamiento + ajuste. A medida que los parámetros del modelo de lenguaje continúan aumentando, el modelo también ha surgido con capacidades como el aprendizaje de contexto y el encadenamiento de pensamiento. Sin entrenar los parámetros del modelo de lenguaje, es posible lograr mejores resultados en muchas tareas de procesamiento del lenguaje natural con solo unos pocos ejemplos de demostración puntuación.

3.1 Consejos para aprender

El aprendizaje rápido consiste en agregar información adicional como nueva entrada al texto de entrada original, convertir la tarea de predicción posterior en una tarea de modelo de lenguaje y convertir los resultados de predicción del modelo de lenguaje en los resultados de predicción de la tarea posterior original.

Tomando la tarea de análisis de sentimientos como ejemplo, la tarea original es determinar la polaridad emocional del texto en función del texto de entrada dado "Amo China". El aprendizaje rápido consiste en agregar plantillas de mensajes adicionales al texto de entrada original "Amo China", por ejemplo: "La emoción de esta oración es {máscara}". Se obtiene el nuevo texto de entrada "Amo China". La oración es {máscara}". Luego use la tarea del modelo de lenguaje de máscara del modelo de lenguaje para predecir la etiqueta {máscara}, y luego asigne el token predicho a la etiqueta de polaridad emocional y finalmente logre la predicción de polaridad emocional.

3.2 Aprendizaje contextual

El aprendizaje contextual puede considerarse como un caso especial de aprendizaje rápido, es decir, el ejemplo de demostración se considera parte de la plantilla de mensaje escrita manualmente (plantilla de mensaje discreta) en el aprendizaje rápido y los parámetros del modelo no se actualizan.

La idea central del aprendizaje contextual es el aprendizaje por analogía. Para una tarea de clasificación de emociones, primero extraiga algunos ejemplos de demostración de la biblioteca de muestras de análisis de emociones existente, incluidos algunos textos emocionales positivos o negativos y las etiquetas correspondientes, y luego compare los ejemplos de demostración con el texto emocional que se va a analizar. modelo de lenguaje amplio; finalmente, la polaridad emocional del texto se obtiene mediante el aprendizaje de analogías con ejemplos demostrativos.
Insertar descripción de la imagen aquí

Este método de aprendizaje también está más cerca del proceso de toma de decisiones de los seres humanos después del aprendizaje: al observar cómo otros manejan ciertos eventos, cuando te encuentras con eventos iguales o similares, puedes resolverlos fácil y bien.

3.3 Cadena de pensamiento

En una era donde los modelos de lenguaje a gran escala están proliferando, el paradigma del procesamiento del lenguaje natural ha cambiado por completo. A medida que aumentan los parámetros del modelo, por ejemplo: análisis de sentimientos, clasificación de temas y otras tareas del Sistema 1 (tareas que los humanos pueden completar de forma rápida e intuitiva), se pueden obtener mejores resultados incluso en condiciones de pocas muestras y cero muestras. Pero para las tareas del Sistema 2 (tareas que los humanos necesitan pensar lenta y cuidadosamente para completar), como el razonamiento lógico, el razonamiento matemático y el razonamiento de sentido común, incluso cuando los parámetros del modelo aumentan a cientos de miles de millones, el efecto no es ideal. y El simple hecho de aumentar el número de parámetros del modelo no aporta una mejora sustancial del rendimiento.

Google propuso el concepto de Cadena de pensamiento (CoT) en 2022 para mejorar la capacidad de modelos de lenguaje grandes para realizar diversas tareas de razonamiento. La cadena de pensamiento es esencialmente una plantilla de indicaciones discreta. El objetivo principal de la cadena de pensamiento es utilizar la plantilla de indicaciones para permitir que modelos de lenguaje grandes imiten el proceso de pensamiento humano y proporcionen una base de razonamiento paso a paso para deducir la respuesta final. La base de razonamiento para cada paso se compone de La colección de oraciones es el contenido de la cadena de pensamiento.

En realidad, el pensamiento en cadena ayuda a los modelos de lenguaje grandes a descomponer un problema de varios pasos en múltiples pasos intermedios que se pueden resolver individualmente, en lugar de resolver todo el problema de múltiples saltos en una sola pasada.

Insertar descripción de la imagen aquí

4. Sugerencias de referencias de la industria

4.1 Aceptar el cambio

A diferencia de otros campos, el campo AIGC es actualmente uno de los que cambia más rápidamente. Tomando como ejemplo la semana del 13 de marzo de 2023 al 19 de marzo de 2023, hemos experimentado el lanzamiento de la Universidad de Tsinghua del modelo de código abierto ChatGLM 6B, el lanzamiento de openAI de la interfaz GPT4, la celebración de una conferencia de prensa de Baidu Wenxinyiyan y el lanzamiento de Office de Microsoft junto con ChatGPT Combinado con una serie de eventos importantes, como el nuevo producto Copilot.

Estos eventos afectarán la dirección de la investigación de la industria y generarán más pensamientos. Por ejemplo, ¿la próxima ruta técnica debería basarse en modelos de código abierto o entrenar previamente nuevos modelos desde cero? ¿Cuántos parámetros deberían diseñarse? Copilot está listo, ¿cómo deberían responder los desarrolladores de aplicaciones del complemento de oficina AIGC?

Aun así, se sigue recomendando que los profesionales adopten los cambios, ajusten rápidamente las estrategias y utilicen recursos de vanguardia para acelerar la realización de sus tareas.

4.2 Posicionamiento claro

Debe tener claros sus objetivos para segmentar la pista, como si hacer la capa de aplicación o la capa de optimización base, si hacer el mercado del extremo C o el mercado del extremo B, si hacer aplicaciones verticales de la industria o herramientas generales. software. No seas demasiado ambicioso, aprovecha la oportunidad y "corta el pastel con precisión".

Tener un posicionamiento claro no significa que no te chocarás contra la pared y nunca volverás atrás, sino que significa comprender tu propio propósito y significado.

4.3 Cumplimiento y controlabilidad

El mayor problema del AIGC es la incontrolabilidad de la producción. Si este problema no se puede resolver, su desarrollo enfrentará un gran cuello de botella y no será ampliamente utilizado en los mercados del lado B y del lado C. En el proceso de diseño del producto, se debe prestar atención a cómo integrar el motor de reglas, fortalecer el mecanismo de recompensa y castigo y la intervención manual adecuada. Los profesionales deben centrarse en los riesgos de derechos de autor, éticos y legales involucrados en el contenido generado por AIGC.

4.4 Acumulación de experiencia

El propósito de la acumulación de experiencia es establecer las propias barreras. No ponga todas sus esperanzas en un solo modelo. Por ejemplo, una vez diseñamos el producto en un formato de texto plano para integrarse perfectamente con ChatGPT, pero el último GPT4 ya admite entrada multimodal. No debemos desanimarnos, sino aceptar rápidamente los cambios y utilizar la experiencia acumulada previamente (dimensión de datos, dimensión de aviso, dimensión de diseño de interacción) para completar rápidamente las actualizaciones del producto y afrontar mejor los nuevos escenarios y formas de interacción. Finalmente, me gustaría recomendar un muy buen libro a todos: "Principios y combate práctico de ChatGPT".

Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/weixin_63866037/article/details/132818328
Recomendado
Clasificación