【GPT-4 Theory-1】Explorando la tecnología central de GPT-4 | Equipo técnico de JD Cloud

prefacio

GPT-4 se lanzó durante algún tiempo, pero por varias razones, como la seguridad, OpenAI no publicó los detalles técnicos y el código de GPT-4, sino que solo entregó un informe técnico de 100 páginas[1] .

Este informe técnico se centra en los puntos fuertes de GPT-4 y solo ofrece una descripción general de varias direcciones técnicas, lo que está lejos de ser suficiente para los que queremos comprender los detalles técnicos.

En este artículo, combinaré el informe técnico de GPT-4, la mejora de GPT-4 en relación con GPT 3.5/ChatGPT, la comparación de GPT-4 y ChatGPT, el trabajo reciente de OpenAI, el modelo de lenguaje grande (Large Language Modelo, LLM) modelo El progreso de la investigación científica de GPT-4, el progreso de la investigación científica del modelo multimodal y otra información, análisis en profundidad de los detalles técnicos de GPT-4.

Debido a que no hay evidencia clara de que GPT-4 haga esto, aquí analizamos principalmente qué tecnologías puede usar OpenAI para lograr estas capacidades de GPT-4. Entonces, si mi especulación es incorrecta, los lectores pueden discutirlo en el área de comentarios. A continuación, convirtámonos en Sherlock Holmes y comencemos a analizar los principios detrás de GPT-4.

1. Mejora de GPT-4

GPT-4 se itera sobre la base de ChatGPT. No entraré en detalles sobre el principio de ChatGPT aquí. Si necesita comprenderlo, lo presentaré en el artículo "Explicación detallada de ChatGPT/InstructGPT". En este artículo, primero discutimos qué mejoras ha hecho GPT-4 en comparación con ChatGPT, es decir, qué mejoras funcionales tiene GPT-4 en comparación con ChatGPT. A continuación, analizamos qué tecnologías puede haber aplicado OpenAI en GPT-4 para lograr estas mejoras. Finalmente, discutimos otros modelos de lenguaje grande y algunas ideas sobre el uso de GPT-4.

1.1 Capacidad de aprendizaje de tiro cero y pocos tiros

Cuando usamos GPT-4 para la generación de texto, nos sorprenderá gratamente descubrir que GPT-4 puede responder casi perfectamente a sus diversas preguntas difíciles, lo que demuestra que GPT-4 tiene capacidades de aprendizaje no supervisadas muy poderosas.

Además, el informe técnico de GPT-4 también brinda una gran cantidad de ejemplos de aprendizaje no supervisado, incluso acercándose o superando el método SOTA supervisado en algunos escenarios. Por ejemplo, en el conjunto de datos de generación de código de HumanEval[3], incluso supera a la famosa herramienta de generación de código CodeX[3]. Además, GPT-4 se acerca a Anthropic-LM [4] de SOTA en el conjunto de datos de preguntas y respuestas TruthfulQA [26], que evalúa la corrección.

1.2 Capacidad de razonamiento lógico

El informe técnico de GPT-4 enfatiza su mejora sobre ChatGPT en muchos exámenes académicos, como se muestra en la Figura 1. La evaluación de la prueba académica refleja que GPT-4 tiene una mayor capacidad de razonamiento lógico que ChatGPT. @越玉涛Max comparó horizontalmente los problemas de razonamiento lógico de GPT-4 y ChatGPT a través de 19 preguntas [2], entre las cuales la tasa correcta de ChatGPT es del 37 % y la tasa correcta de GPT-4 es del 100 %. De la comparación ejemplo, obviamente podemos Se puede ver que GPT-4 tiene un salto cualitativo en el razonamiento lógico.

Figura 1: Comparación de las puntuaciones de GPT-4 y ChatGPT en muchos exámenes académicos

También encontré un problema de razonamiento lógico simple aquí. Se puede ver que en este ejemplo de cruce de puente, aunque ChatGPT dio la secuencia de cruce de puente, el cálculo del tiempo fue incorrecto y GPT-4 resolvió este problema de manera simple y clara.

Pregunta: Cuatro personas cruzan el puente ABCD. Como máximo dos personas pueden cruzar el puente a la vez. Sus linternas pueden durar 17 minutos. El tiempo requerido para cada persona es 1, 2, 5 y 10 respectivamente, averigüe cuánto tiempo que puede tardar en cruzar el puente a la mayor velocidad?

ChatGPT: Para que cuatro personas crucen el puente lo más rápido posible, debemos dejar que la persona más lenta cruce el puente lo más rápido posible. Por lo tanto, podemos dejar que las dos personas más lentas, A y B, crucen el puente primero, luego dejar que A regrese, luego dejar que las segundas personas más lentas, C y D, crucen el puente, y finalmente dejar que B regrese, completando así todo el proceso de cruzar. el puente

En concreto, podemos seguir estos pasos:

A y B tardan 10 minutos en cruzar el puente.

A regresa y tarda 1 minuto.

C y D cruzan el puente, se tarda 5 minutos.

B regresa, tardando 2 minutos.

A y B tardan 10 minutos en cruzar el puente.

Entonces, el tiempo total empleado es 10 + 1 + 5 + 2 + 10 = 28 minutos. Ese es el tiempo más rápido que tardan en cruzar el puente.

GPT-4 : Para hacer que las cuatro personas ABCD crucen el puente lo más rápido posible, podemos adoptar la siguiente estrategia:

A y B cruzan el puente juntos en 2 minutos.

A regresa y tarda 1 minuto.

C y D cruzan el puente juntos, lo que toma 10 minutos.

B regresa, tardando 2 minutos.

A y B cruzan el puente juntos en 2 minutos.

Tiempo total: 2 + 1 + 10 + 2 + 2 = 17 minutos.

Para que todos puedan cruzar el puente en tan solo 17 minutos.

1.3 Capacidad para comprender diagramas

Una mejora importante de GPT-4 es comenzar a involucrar la multimodalidad. Dado que la interfaz de imagen de GPT-4 aún no se ha abierto, tomamos prestado el ejemplo dado en el informe técnico de GPT-4 aquí. En la Figura 2, GPT-4 puede comprender con precisión la incongruencia del puerto VGA y el puerto Lightning. Este ejemplo muestra que GPT-4 no es solo una simple comprensión del contenido de la imagen, sino que su punto más poderoso es que puede reconocer puntos especiales en la imagen.

Figura 2: GPT-4 tiene potentes capacidades de comprensión de gráficos y tablas

1.4 Capacidades de generación de texto más seguras

El informe técnico de GPT-4 se centra en los mismos problemas de seguridad que los modelos anteriores, pero la seguridad de GPT-4 ha mejorado mucho. Según el informe técnico, ChatGPT tiene unas 10 veces más probabilidades de generar contenido dañino que GPT-4. La Figura 3 ejemplifica una gran cantidad de contenido generado por GPT-4 temprano y GPT-4 maduro con avisos de riesgo. Se puede ver que el riesgo de GPT-4 maduro se reduce considerablemente, pero esto no significa que GPT-4 sea un mal modelo completamente inofensivo.

Figura 3: Ejemplo de GPT-4 temprano y GPT-4 maduro sobre la seguridad del contenido generado

GPT-4 ha trabajado mucho para garantizar la seguridad del modelo. Primero, contrataron a más de 50 expertos en dominios de diferentes direcciones para realizar pruebas de confrontación y pruebas de equipo rojo. Segundo, entrenaron un modelo de recompensa basado en reglas (Regla -Based Reward Models, RBRM) para asistir en el entrenamiento del modelo. Ampliaremos los detalles de implementación de esta parte en detalle más adelante.

1.5 Mayor capacidad de programación

Otro elemento de comparación importante en el informe técnico de GPT-4 es la capacidad de generación de código entre este y ChatGPT en LeetCode, que es fácil, medio y difícil. En el caso no supervisado, la precisión de la evaluación de GPT-4 en el conjunto de datos HumanEval se mejora del 48,1 % de ChatGPT al 67,0 %. El informe técnico de GPT-4 señaló que ChatGPT solo respondió 20 de las 166 preguntas de programación de LeetCode, mientras que GPT-4 respondió 55 correctamente. La Tabla 1 es la distribución específica de GPT-4 y ChatGPT en las 166 preguntas de programación de LeetCode.

GPT-4 GPT-4 (sin visión) ChatGPT
LeetCode (fácil) 31 / 41 31 / 41 12 / 41
LeetCode (medio) 21 / 80 21 / 80 8 / 80
LeetCode (duro) 3 / 45 3 / 45 0 / 45

Tabla 1: Rendimiento de GPT-4 y ChatGPT en las preguntas de programación de LeetCode

1.6 Capacidad para manejar otros idiomas

GPT-4 ha mejorado mucho tanto en inglés como en otros idiomas, y superó el rendimiento de ChatGPT en inglés en la mayoría de los idiomas. Aquí dejamos que ChatGPT y GPT-4 respondan al Sr. Tang en "Let the Bullets Fly". Se le pidió que escribiera un poema, la petición es "debe haber viento, debe haber carne, debe haber olla caliente, debe haber niebla, debe haber mujeres hermosas, debe haber burro". Comparando los dos poemas, ChatGPT parece un poema moderno sin mucho talento literario, mientras que el contenido generado por GPT-4 es básicamente como un antiguo poema chino excepto por el excesivo número de palabras en los dos primeros lugares, e incluso lo garantiza a un cierta medida rima.

ChatGPT:

El viento sopla sobre las colinas, y el olor a carne se desborda
. La olla caliente está humeando, y la niebla persiste. Las
hermosas mujeres son elegantes y encantadoras, y el burro corre feliz
. Este es un rollo de imagen único, que hace que la gente se sienta renovada.La gente saliva , la niebla llena el aire, haciendo que la gente se sienta misteriosa, el rostro de la belleza embriaga a la gente , la alegría del burro hace que la gente sienta la vitalidad de la vida, esta es una imagen llena de vitalidad, que fascina a la gente.





GPT-4:

El viento arremolinado sopla sin sentido sobre el arroyo de la montaña, y
la olla caliente shabu-shabu es la guinda del pastel.
El humo de la cocina se enrosca en la niebla, y
las bellezas y los burros nadan juntos.

La bella mujer acaricia suavemente el lomo del burro,
alejando las preocupaciones y el mundo.
Jugando con colorete, sonriente y borracho,
burro cantando y corriendo hacia el exterior de la montaña.

Los champiñones rojos llameantes se calientan y
la carne con chile se hierve en agua.
La olla caliente de pato mandarín canta y ríe,
el tiempo vuela y se queda en sueños.

La niebla lava el destino del polvo,
y el impermeable de fibra de coco y el chaifei están en riesgo.
El casco del burro aplasta las costumbres del mundo, y
las huellas de los cascos de Feihong dejan la gloria.

1.7 Capacidad para manejar secuencias más largas

La secuencia más grande que puede manejar ChatGPT son tokens de 4K, mientras que OpenAI ha abierto dos modelos de 8k y 32k, en los que cada carácter chino ocupa entre 2 y 2,5 tokens. Los tokens de GPT-4 tienen un precio de acuerdo con las instrucciones y respuestas (Tabla 2). El precio de 32k es el doble que el de 8k. Comparado con los $0.02 por 1000 tokens de ChatGPT, GPT-4 es aproximadamente 15 veces más caro.

Modelo Inmediato Terminación
contexto 8K $0.03 / 1K fichas $0.06 / 1K fichas
contexto 32K $0.06 / 1K fichas $0.12 / 1K fichas

Tabla 2: Detalles de cargos por GPT-4

La detección de más capacidades de GPT-4 se analiza ampliamente en su último artículo de 155 páginas [25] de Sébastien Bubeck, jefe del Grupo de Teoría de Aprendizaje Automático de Microsoft Redmond Research.

Señalaron que GPT-4 ha demostrado mucho más allá del rendimiento teórico del modelo de generación de texto y se ha convertido en la chispa que enciende las llamas de la inteligencia artificial general (AGI).GPT-4 ya tiene un razonamiento, una planificación y un problema muy sólidos. -Resolución, pensamiento abstracto, comprensión de ideas complejas, aprendizaje rápido y la capacidad de aprender de la experiencia.


2. Suposición de solución técnica GPT-4

Con estas mejoras de GPT que encontramos, podemos combinar el progreso actual de LLM y el trabajo de OpenAI para adivinar las posibles soluciones técnicas de GPT-4. Debido a que solo podemos confiar en los algoritmos publicados para hacer conjeturas, no se descarta que OpenAI use algoritmos sin abrir como soluciones, por lo que si mi conjetura es incorrecta, puede asumir que ha aprendido varios algoritmos independientes.

  1. Capacidad de aprendizaje de disparos cero y pocos disparos: es probable que la base teórica para esta mejora se deba a la capacidad de emergencia de los modelos grandes (capacidad emergente) [5];
  2. Capacidad de razonamiento lógico: se utilizan la cadena de pensamiento (Chain of Thought, CoT) [6] y la capacidad de superación personal (Self-Improve Ability) [7] del modelo grande;
  3. Capacidad para comprender imágenes: se especula que se basa en el famoso modelo multimodal CLIP[8] de OpenAI o el modelo multimodal KOSMOS-1[12] de Microsoft;
  4. Capacidad de generación de texto más segura: esta parte del informe técnico presenta más, principalmente pruebas de expertos, detección de alucinaciones y RBRM;
  5. Mayor capacidad de programación: se especula que esta parte se basa en el famoso modelo de generación de código de OpenAI: CodeX;
  6. Habilidad para manejar otros lenguajes: se especula que la idea de modelos de preentrenamiento multilingües como XLM [9] puede ser prestada, o porque la habilidad emergente fortalece el desempeño de GPT-4 en otros idiomas;
  7. Capacidad para procesar secuencias más largas: se especula que esta parte usa el modelo Transformer-XL [10] que maneja entradas largas o el Sparse Transformer [11] propuesto por OpenAI que puede reducir la complejidad de los datos largos;

A continuación presentamos la base de nuestra especulación y una breve introducción a las técnicas de estas especulaciones.

2.1 Capacidades emergentes

La capacidad emergente es la tecnología central más importante para que LLM haga avances. La capacidad emergente se refiere a un modelo que aprende automáticamente algunas funciones o comportamientos avanzados y complejos durante el proceso de capacitación, y estas funciones o comportamientos no están codificados o especificados directamente.

Esta capacidad puede hacer que el modelo funcione mejor cuando se trata de tareas nuevas y desconocidas, ya que puede aprender de forma adaptativa nuevas funciones o comportamientos sin volver a entrenar ni modificar el modelo. La Figura 4 muestra que muchos LLM, incluido GPT-3, han mostrado capacidades de emergencia muy sólidas, es decir, cuando los parámetros del modelo superan un determinado indicador, su rendimiento mejorará rápidamente. Aquí podemos concluir que las capacidades de aprendizaje de disparos cero y pocos disparos de GPT-4 se derivan de las capacidades emergentes de modelos grandes.

La capacidad emergente del modelo depende principalmente de cuatro puntos, que son:

  • La gran cantidad de parámetros en el modelo;
  • la arquitectura del modelo;
  • datos de entrenamiento de alta calidad;
  • Estrategias de entrenamiento más avanzadas.

Entre ellos, la cantidad de parámetros del modelo es el factor más importante.

Figura 4: Muchos modelos grandes como GPT-3 han demostrado capacidades emergentes en múltiples tareas

2.1.1 Cantidad de parámetros del modelo

La cantidad de parámetros de GPT-4 es un tema que todo el mundo está discutiendo. Teniendo en cuenta que GPT-4 es más fuerte que ChatGPT y tiene un módulo adicional de codificación de imágenes, la cantidad de parámetros de GPT-4 no debe ser menor que ChatGPT. La Figura 5 muestra el tiempo previsto para cada token de las estadísticas de ChatGPT Turbo y GPT-4 de ARK Invest, donde el tiempo de GPT-4 es aproximadamente 4 veces el de ChatGPT. Y es probable que GPT-4 use algunas estrategias para acelerar la velocidad de razonamiento del modelo, por lo que la parte del parámetro del modelo de texto de GPT-4 tiene aproximadamente 100 mil millones de niveles, pero muy cerca de billones.

Si GPT-4 usa CLIP para la codificación de imágenes, según el documento de OpenAI, el codificador de imágenes más grande actual es una red residual ampliada 64 veces, entonces la codificación de imágenes de GPT-4 es de aproximadamente 1600 millones. Por supuesto, no podemos descartar que GPT-4 use otras estructuras de codificación de imágenes. Por ejemplo, KOSMOS-1[12], que también usa Transformer, es una buena opción. Luego, los parámetros de la parte de la imagen solo pueden esperar a que sean más relevantes. contenido a divulgar.

Figura 5: La proporción de ChatGPT y GPT-4 en la predicción de cada token según las estadísticas de ARK Invest

2.1.2 Arquitectura del modelo

De lo que podemos estar seguros es que el informe técnico de GPT-4 señala que GPT-4 adopta una arquitectura basada en transformadores, es decir, la arquitectura central sigue adoptando la estructura de solo decodificador de la serie GPT. En cuanto a los detalles internos del modelo GPT-4, no podemos confirmar muchos puntos, teniendo en cuenta la velocidad de GPT-4 y la capacidad de procesar texto largo, su estructura interna tiene estas dos posibilidades:

  1. Debido a que GPT-4 mejora en gran medida la capacidad de texto largo, GPT-4 tiene cierta probabilidad de usar Transformer-XL o Sparse Transformer;
  2. Debido a que es más probable que GPT-4 se itere sobre la base de ChatGPT, aún puede usar el Transformador original y aumentar la cantidad de capas, la cantidad de cabezas y la cantidad de nodos de capa oculta.

Debido a que GPT-4 también admite la entrada de imágenes, debe haber una parte sobre la codificación de imágenes, que ampliaremos en detalle en la Sección 2.3.

2.1.3 Estrategia de entrenamiento y datos de entrenamiento

GPT-4 básicamente mantiene la misma estrategia de entrenamiento que ChatGPT, es decir, básicamente sigue el paradigma de preentrenamiento + aviso + predicción, como se muestra en la Figura 6. Aquí presentamos principalmente la mejora de GPT-4, hay tres puntos principales.

  • Introdujo un modelo de recompensa basado en reglas (Modelo de recompensa basado en reglas, RBRM);
  • Introdujo el aprendizaje de pistas multimodales;
  • Se introduce una cadena de pensamiento.

Figura 6: Pasos de entrenamiento del modelo de ChatGPT

1. RBRM

La primera mejora de GPT-4 es la introducción de RBRM. RBRM es un modelo de cuatro categorías escrito de acuerdo con las reglas. Sus cuatro categorías son:

  • rechazo del patrón deseado;
  • Rechazo de estilos inesperados;
  • contiene contenido no permitido;
  • Respuestas seguras, no rechazadas.

GPT-4 se usó en la etapa PPO del Paso 3 en la Figura 6. Para mejorar la seguridad del modelo, ChatGPT utiliza el aprendizaje por refuerzo con retroalimentación humana (RLHF) en el paso 3 para entrenar el modelo. Esta parte de los datos de ChatGPT proviene de los usuarios de la API de GPT-3, y GPT-4 agrega RBRM aquí, con el propósito de negarse a generar solicitudes dañinas y no rechazar solicitudes inofensivas a través de un entrenamiento correcto del modelo guiado por recompensas.

El uso de reglas para construir modelos de PNL tiene una larga historia. De hecho, los primeros modelos de PNL fueron modelos basados ​​en reglas, seguidos de modelos basados ​​en probabilidades y modelos basados ​​en redes neuronales.

Por ejemplo, Shannon usó el modelo de probabilidad del proceso discreto de Markov para describir el autómata del lenguaje, y las expresiones regulares que usamos a menudo son modelos de texto típicos basados ​​en reglas. La ventaja de un modelo basado en reglas es que no necesitamos datos de entrenamiento, pero la desventaja es que a menudo requiere expertos en el dominio para diseñar reglas y, a menudo, solo puede resolver problemas en un campo determinado. Supongo que aquí RBRM está diseñado por expertos en dominios y es un clasificador de muestra cero escrito por una serie de reglas de texto, como expresiones regulares y máquinas de estados finitos.

El aprendizaje por refuerzo basado en reglas también se ha mencionado ampliamente en los últimos años.Un objetivo de optimización importante del aprendizaje por refuerzo es reducir el alcance del espacio de búsqueda, y este trabajo solo se puede realizar bajo las restricciones de las reglas. Después de estar limitado por las reglas, busque en el espacio restante a través del aprendizaje por refuerzo, lo que reduce el espacio de búsqueda del aprendizaje por refuerzo y puede mejorar efectivamente la velocidad de convergencia. El principio de funcionamiento del RBRM de GPT-4 se muestra aproximadamente en la Figura 7.

Figura 7: Cómo funciona RBRM

2. Aprendizaje rápido multimodal

GPT-4 no detalla los detalles técnicos de sus capacidades multimodales y su interfaz gráfica no está abierta para la versión beta pública. Pero podemos ver si hay algún trabajo similar en el informe de GPT-4 en el campo multimodal. Coincidentemente, el KOSMOS-1[12] anunciado por Microsoft a principios de este año tiene una capacidad de control de calidad multimodal muy fuerte y su pensamiento es muy similar al de GPT-4. Podemos especular que GPT-4 usa KOSMOS-1 Un enfoque similar a la incitación multimodal.

KOSMOS-1 admite tres tipos de conjuntos de datos, a saber, generación de texto, generación de descripción de imagen (Imagen Caption) y control de calidad multimodal. La Figura 8 es un ejemplo de KOSMOS-1 en generación de descripción de imagen y generación de control de calidad. En la generación de la descripción de la imagen de la Figura 8.(a), la entrada del modelo es la Incrustación de la imagen, y la salida es la descripción de la imagen predicha. En el control de calidad multimodal de la Figura 8.(b), KOSMOS-1 toma incrustaciones de imágenes y de texto como entrada, que luego se utilizan para predecir la respuesta a la pregunta.

Figura 8: Ejemplo de entrada multimodal para KOSMOS-1

3. Cadena de pensamiento

GPT-4 tiene una capacidad de razonamiento lógico significativamente más fuerte que ChatGPT. Al entrenar el modelo, debe usar la forma de cadena de pensamiento para construir muestras rápidas. La cadena de pensamiento no solo admite la entrada de texto sin formato, sino también la entrada multimodal de gráficos y texto. Usaremos una sección para presentar este importante contenido.

4. Predicción de capacidad

Cuando entrenamos un modelo en una tarea específica, queremos poder predecir el rendimiento final del modelo en esta tarea, que es la predicción de capacidad del modelo (Predicción de capacidad). En el campo del procesamiento del lenguaje natural y los modelos de lenguaje a gran escala, la predicción de la capacidad generalmente se refiere a predecir y evaluar la capacidad de desempeño de un modelo en una tarea, dominio o escena específica.

El propósito de la predicción de capacidad es comprender mejor el rendimiento del modelo para optimizarlo, ajustarlo o mejorarlo. A través de la capacidad de predicción del modelo, podemos comprender mejor las fortalezas y limitaciones del modelo, lo que puede proporcionar información valiosa para el desarrollo y la mejora posteriores del modelo. GPT-4 también utiliza la predicción de capacidad durante el entrenamiento, lo que les permite evaluar con mayor precisión el efecto del modelo y ahorra costos de entrenamiento.

2.2 Capacidad de razonamiento lógico

Para mejorar la capacidad de razonamiento de GPT-4, es probable que OpenAI utilice la cadena de pensamiento muy importante y la capacidad de superación personal de LLM en los últimos años. Pueden considerarse como la optimización específica del aprendizaje de pistas en términos de capacidad de razonamiento lógico, y los presentaremos por separado a continuación. Del informe técnico de GPT-4, podemos encontrar que gran parte de la capacitación de GPT-4 utiliza evidencia de cadena de pensamiento o superación personal.

2.2.1 Cadena de pensamiento

Cadena de pensamiento se refiere a una serie de asociaciones de pensamiento relacionadas y asociaciones causadas por un cierto punto de vista, idea o estímulo percibido cuando las personas están pensando. Estas asociaciones pueden establecerse y fortalecerse a través de la memoria, la experiencia, el conocimiento, la emoción y la conciencia de las personas, etc., y finalmente formar una cadena orgánica de pensamiento para ayudar a las personas a comprender y resolver problemas, tomar decisiones y emprender acciones. La cadena de pensamiento es una parte importante de las actividades de pensamiento humano, que refleja la forma de pensar, los hábitos de pensamiento y la eficiencia del pensamiento de las personas. Al construir y fortalecer la cadena de pensamiento, puede ayudar a las personas a comprender y comprender mejor la naturaleza y las leyes de las cosas, y a resolver problemas y tomar decisiones de manera más efectiva.

En el campo de la inteligencia artificial, los investigadores también están explorando cómo usar tecnologías como el aprendizaje automático y el procesamiento del lenguaje natural para simular cadenas de pensamiento humano, establecer cadenas de pensamiento automático, ayudar a las máquinas a comprender y procesar mejor el lenguaje y el comportamiento humanos, y lograr aplicaciones más inteligentes. y sistemas El artículo de OpenAI [6] es un artículo de gran importancia en la dirección de la cadena de pensamiento, y también es una solución técnica que probablemente usará GPT-4. En este artículo, propusieron mejorar el modelo mediante la construcción de una cadena de pensamiento. prontitud capacidad de razonamiento. La cadena de pensamiento también es una habilidad emergente, que puede mejorar en gran medida la capacidad de razonamiento lógico del modelo al proporcionar solo una pequeña cantidad de muestras.

La diferencia entre la cadena de pensamiento y el aprendizaje tradicional mediante indicaciones es que se agrega un proceso de razonamiento a la indicación y se construye un triplete compuesto por entrada, cadena de pensamiento y salida. La Fig. 9 es un ejemplo de un mensaje tradicional y un mensaje de cadena de pensamiento.

Figura 9: Aprendizaje rápido tradicional y aprendizaje rápido de la cadena de pensamiento La cadena de pensamiento proporcionará el proceso de razonamiento en la entrada para ayudar al modelo a aprender la capacidad de razonamiento

La cadena de pensamiento también admite entradas multimodales, y el informe técnico de GPT-4 también señaló que GPT-4 utiliza una cadena de pensamiento multimodal. El ejemplo de GPT-4 en la Figura 13 es un resultado de predicción clásico que incluye razonamiento porque el modelo se entrena usando la cadena de pensamiento. La Figura 10 es el marco de una cadena de pensamiento multimodal publicada recientemente por la Universidad Jiaotong de Shanghái y Amazon: Multimodel-COT [14].

Consta de dos etapas, y las dos etapas comparten parámetros. En la primera etapa, introducen imágenes y texto en el modelo para generar razones o cadenas de pensamiento. En la segunda etapa, combinaron la entrada sin procesar y la justificación generada en el modelo para generar la respuesta.

Figura 10: Proceso de inferencia de Multimodel-COT

2.2.2 Autopromoción

En un artículo [7] publicado por Google en 2022, se señaló que la combinación de LLM y la cadena de pensamiento puede permitir que el modelo use datos no supervisados ​​para la superación personal (Self-Improve). Su método central se muestra en la Figura 11 . GPT-4 también señaló que utilizaron el esquema de [7] para mejorar la capacidad del modelo para seguir la intención del usuario.

Figura 11: LLM puede mejorar con modelos grandes

Su proceso de cálculo es el siguiente:

  1. Primero, construimos avisos basados ​​en la cadena de pensamiento;
  2. De acuerdo con diferentes coeficientes de temperatura, el modelo genera múltiples caminos diferentes que contienen el proceso de razonamiento;
  3. Usamos la votación para seleccionar la respuesta correcta más probable;
  4. Todas las rutas que contienen esta respuesta correcta se utilizan para optimizar LLM.

Es posible que haya descubierto que este método no siempre le da la respuesta correcta. El autor saca dos conclusiones importantes a través de experimentos:

  1. La tasa correcta de la respuesta está altamente correlacionada con su confianza, lo que significa que es probable que la respuesta obtenida mediante la votación sea la respuesta más correcta entre las respuestas generadas;
  2. Incluso si las respuestas son incorrectas, agregarlas a los datos de entrenamiento ayuda al modelo a entrenar.

Después de obtener la ruta de inferencia, el autor construyó cuatro datos de entrada diferentes de acuerdo con la ruta, que son:

  1. Indicaciones de cadena de pensamiento estándar, es decir, construcción (pregunta, cadena de pensamiento, respuesta) par ternario;
  2. Aprendizaje rápido tradicional, es decir, solo preguntas y respuestas;
  3. La entrada es una pregunta, agregue un mensaje "Pensemos paso a paso" para permitir que el modelo prediga el paso de razonamiento;
  4. Control de calidad tradicional, es decir, ingresar preguntas y predecir respuestas.

Finalmente, para enriquecer el conjunto de datos, el autor propone dos esquemas para expandir los datos: uno es combinar aleatoriamente dos preguntas y luego dejar que el modelo genere nuevas preguntas; el otro es dejar que el modelo genere un paso de inferencia y agregue al conjunto de entrenamiento.

2.3 Capacidad para comprender diagramas

Debido a que GPT-4 admite la entrada de gráficos en formato de imagen, el famoso algoritmo multimodal CLIP [8] de OpenAI dice que podemos asignar imágenes y texto al mismo espacio de características a través del aprendizaje comparativo, como se muestra en la Figura 12. Luego, combinado con el codificador de imagen de CLIP, se puede realizar la entrada de imagen de GPT-4. En este momento, necesitamos entrenar un codificador de imagen que pueda alinearse con las características de texto de GPT y luego usar la salida de la imagen. codificador de CLIP como token de imagen y, finalmente, agregue una capa de incrustación para codificar este token como un vector de características de GPT-4.

Figura 12: La estructura de CLIP, que proyecta imágenes y texto al mismo espacio de funciones a través del aprendizaje contrastivo

Además de que GPT-4 puede entender el ejemplo de esta foto en la Figura 2, lo más sorprendente es que GPT-4 también puede entender la imagen académica en la Figura 13 que contiene muchos detalles. Porque en una imagen académica, los símbolos a los que se hace referencia en la imagen y la relación posicional entre los objetivos son muy importantes. Si GPT-4 puede capturar estos detalles a través de una sola codificación de imagen, entonces este codificador de imagen también debe mostrar Con un emergente muy fuerte capacidad, este codificador de imagen también tiene una alta probabilidad de una cantidad de parámetro de escala 100 mil millones.

Figura 13: GPT-4 tiene la capacidad de comprender detalles específicos en imágenes académicas

Otra posibilidad de la capacidad multimodal de GPT-4 es similar al modelo de lenguaje grande multimodal (Multimodel Large Language Model, MLLM). Entre ellos, KOSMOS-1 de Microsoft demostró la capacidad de un modelo de lenguaje multimodal similar a GPT-4, y KOSMOS-1 también demostró una capacidad emergente muy sólida en la respuesta a preguntas multimodales, como se muestra en la Figura 14.

KOSMOS-1 es un modelo multimodal basado en el decodificador Transformer, que une datos de diferentes modalidades, como <s> y </s> representan entrada de texto, <image> y <\image> representan entrada de imagen, donde el la incrustación de imágenes utiliza el vector de características calculado por METALM de Microsoft [13]. Especulamos que GPT-4 puede basarse en las ideas de KOSMO-1S y luego combinar parte del trabajo multimodal propio de OpenAI.

Figura 14: KOSMOS-1 de Microsoft ha surgido con capacidades de comprensión de imágenes muy sólidas

Para obtener más detalles técnicos de la multimodalidad de GPT-4, podemos esperar a que se abra la interfaz de imagen de GPT-4 y probar mucho antes de que podamos averiguarlo.

2.4 Salida más segura

La idea de los modelos de aprendizaje profundo existentes es usar un modelo grande para adaptarse al conjunto de entrenamiento.Para un modelo generativo, su contenido de salida no es completamente controlable, y GPT-4 no es una excepción. El informe técnico de GPT-4 señaló que el modelo de texto tendrá los siguientes tipos de salidas de riesgo, como alucinaciones, contenido dañino, discriminación, información falsa, violencia, privacidad, seguridad de la red, etc. GPT-4 ha trabajado mucho para aliviar este problema.

El primer problema de GPT-4 para mitigar la salida del riesgo es contratar a más de 50 expertos de diferentes campos para que actúen como el equipo rojo para las pruebas de confrontación. El trabajo del equipo rojo es hacer preguntas peligrosas para probar la salida proporcionada por GPT-4 e intentar atacarlo. A través de la confrontación de expertos en dominios, OpenAI también recopiló una gran cantidad de datos de expertos en dominios en diferentes direcciones para mejorar la seguridad de GPT-4.

2.4.1 Alucinaciones

La alucinación es un problema muy difícil para los modelos generativos, se refiere al contenido absurdo o irreal que produce el modelo, es decir, un disparate grave. Este comportamiento alucinatorio será especialmente dañino a medida que la oración de contenido generada por el modelo se vuelva cada vez más fluida y el contenido cada vez más persuasivo. Las alucinaciones de la modelo se pueden resumir en las siguientes razones:

  1. Desviación de datos: puede haber algunas desviaciones en el conjunto de entrenamiento, como la precisión de los datos, y los errores pueden afectar la comprensión del lenguaje natural del modelo;
  2. Escasez de datos: el conjunto de entrenamiento puede tener relativamente pocos datos en un determinado aspecto, lo que da como resultado una capacidad incontrolable del modelo para generar en este aspecto;
  3. Estructura del modelo: la estructura del modelo y la cantidad de parámetros pueden afectar las capacidades de generalización y representación del modelo, lo que lleva a alucinaciones en algunos aspectos del modelo.

GPT-4 adopta dos estrategias para resolver este problema:

El primer método es utilizar los datos de ChatGPT para el entrenamiento. La ventaja de este método es que ChatGPT ya tenía la capacidad de negarse a generar contenido dañino hasta cierto punto en ese momento, y tiene una mayor confiabilidad que los datos rastreados en Internet. Pero su problema es que puede heredar los problemas de ChatGPT en GPT-4. Y confiar en el contenido generado de un modelo como datos de entrenamiento de otro modelo puede conducir a un ajuste excesivo del modelo.

El segundo enfoque es emplear técnicas de PNL para detectar muestras alucinadas generadas por el modelo, incluida la evaluación automática y la evaluación humana. La ventaja de este método es que puede detectar y corregir eficazmente el problema de alucinaciones producido por el modelo. Su desventaja es que el método de evaluación automática puede pasar por alto algunas muestras ficticias debido a los defectos del modelo de evaluación, y el mayor problema con la evaluación manual es que el costo de mano de obra es muy alto.

En cuanto a la detección de alucinaciones, Meta tiene una contribución muy importante. Por un lado, propusieron la tarea de detección de alucinaciones y produjeron el conjunto de datos de detección de alucinaciones HADES [15] para esta tarea. Por otro lado, propusieron un método de detección de alucinaciones [16], que sintetiza datos de alucinaciones para pre-entrenar al modelo. El modelo puede detectar palabras alucinantes que aparecen en una oración para evaluar la autenticidad del contenido generado, mitigando así la probabilidad de alucinaciones. La Figura 15 es un ejemplo de este método en traducción automática, y la parte etiquetada con 1 corresponde al contenido de la alucinación generada. Aquí se especula que OpenAI puede haber adoptado un método o datos similares a Meta.

Figura 15: Un ejemplo del método de detección de alucinaciones propuesto por FAIR en traducción automática

Específicamente, OpenAI diseñó un proceso de varios pasos que usa GPT-4 para generar datos alucinados o no comparados, y los incorpora al conjunto de entrenamiento del modelo de recompensa en el paso 2 de la Figura 6:

  1. Ingrese el indicador p en GPT-4 y obtenga una respuesta r1;
  2. Introduzca p y r1 en GPT-4 e indíquele que enumere todas las fichas de alucinaciones. Si no hay alucinación, continúe generando hasta que enumere la alucinación h1;
  3. Alimentar p, r1 y h1 en GPT-4 e indicarle que genere una respuesta r2 sin alucinaciones;
  4. Ingrese p y r2 en GPT-4, deje que enumere todas las fichas de alucinaciones, si no se detectan alucinaciones, r1 y r2 se pueden colocar en el conjunto de entrenamiento del modelo de recompensa como un par de muestra de comparación.

2.4.2 Otros temas

Para otros posibles resultados de riesgo, OpenAI no presentó sus soluciones técnicas en detalle, pero a partir de sus soluciones técnicas, podemos ver que probablemente usaron los siguientes tipos de métodos:

  1. Utilizar RBRM para detectar posibles riesgos;
  2. Deje que el modelo aprenda a negarse a responder tales preguntas a través del aprendizaje rápido;
  3. Utilice el equipo rojo para encontrar estos posibles problemas;
  4. Filtre datos de entrenamiento y elimine muestras que puedan causar problemas de riesgo;
  5. Entrene el modelo de recompensa y deje que el modelo castigue el contenido de salida dañino;

2.5 Capacidad de programación

GPT-4 tiene una gran mejora en la capacidad de programación en comparación con ChatGPT. Por un lado, puede tener una mayor capacidad de análisis lógico debido a la cadena de pensamiento. Por otro lado, es probable que aprenda del famoso algoritmo de generación de código de OpenAI. CódigoX[3] . CodeX es una versión derivada de GPT-3 en el campo de la generación de código, y también es el algoritmo básico detrás del complemento Copilot. CodeX adopta el sistema de arquitectura de solo decodificador de la serie GPT, y la cantidad de parámetros del modelo tiene muchas versiones diferentes que van desde 12M a 12B. El entrenamiento de CodeX se divide en dos etapas: preentrenamiento y puesta a punto.

En la fase previa al entrenamiento, OpenAI primero rastreó una gran cantidad de archivos de Python desde Github y obtuvo un conjunto de entrenamiento con un tamaño de 159 GB después de la limpieza. Debido a que CodeX es un modelo de generación de código, no utiliza los pesos entrenados por GPT-3, ni copia completamente los hiperparámetros del modelo de GPT-3, sino que vuelve a entrenar un modelo de generación de código.

En la etapa de ajuste, OpenAI recopiló alrededor de 40 000 datos de sitios web de competencia, sitios web de entrevistas y guiones de prueba de unidad de Github. Al evaluar la corrección del código, CodeX no utiliza la puntuación BLEU tradicional, sino que utiliza el porcentaje de pruebas unitarias que el código puede aprobar como estándar de evaluación y establece el conjunto de pruebas de evaluación HumanEval y el estándar de evaluación pass@k.

Para evitar la fuga de datos, todos los datos de HumanEval están construidos por humanos, incluido un total de 164 preguntas y una gran cantidad de casos de prueba. HumanEval divide cada función en cuatro categorías, a saber, firma de función, anotación de función, cuerpo de función y muestra de prueba unitaria. Al realizar el aprendizaje de sugerencias, las firmas de funciones y las anotaciones de funciones se usan como sugerencias de entrada, los cuerpos de funciones se usan como salidas requeridas y las pruebas unitarias se usan para evaluar el efecto del código generado.

La etiqueta de evaluación de CodeX es similar a Leetcode, es decir, cuántos casos de prueba han pasado la prueba, el estándar de evaluación de CodeX pass@k significa que k se seleccionan aleatoriamente de todas las respuestas generadas del modelo, y la probabilidad de obtener la respuesta correcta de estas k responde. Su método de cálculo es como fórmula (1). donde n es la respuesta generada para cada pregunta, k es k seleccionada aleatoriamente de n respuestas y c es el número de n respuestas que pasan la prueba unitaria.

Tanto CodeX como GPT-4 son los modelos de próxima generación de GPT-3. Es un trabajo razonable para GPT-4 usar las ideas y los datos listos para usar de CodeX y mejorar la capacidad de programación del modelo.

2.6 Capacidad multilingüe

Con respecto a la mejora sustancial de la capacidad de GPT-4 en otros idiomas, OpenAI no dio una introducción y no encontré ninguna explicación relevante. Aquí, en base a la acumulación de tecnología actual, supongo que las soluciones técnicas que OpenAI puede usar:

  1. Datos de entrenamiento mejorados para otros idiomas;
  2. Los modelos a mayor escala permiten que GPT-4 tenga más capacidades en lenguajes pequeños;
  3. Se agregaron tareas para lenguajes pequeños, como usar el corpus paralelo existente para construir tareas de traducción automática basadas en el aprendizaje de sugerencias, usar motores de traducción automática para traducir parte de los datos a idiomas pequeños, etc.

De hecho, no hay mucha información relevante en esta parte, y le invitamos a dar sus propias conjeturas en el área de comentarios.

2.7 Capacidad de secuencia larga

La secuencia larga aquí incluye dos aspectos. Por un lado, GPT-4 admite múltiples rondas de diálogo y, por otro lado, GPT-4 admite datos de entrada más largos. Analicemos las tecnologías que pueden usar.

2.7.1 Múltiples Rondas de Diálogo

Tanto ChatGPT como GPT-4 admiten el diálogo continuo, pero OpenAI no ha brindado la solución técnica detrás de la capacidad de diálogo continuo. Si el diálogo anterior se proporciona aproximadamente como entrada al modelo en cada ronda de diálogo. Aunque teóricamente funciona, el mayor problema con este método es que a medida que aumenta la cantidad de rondas de diálogo, los datos de entrada también aumentarán rápidamente, lo que conducirá a velocidades de predicción cada vez más lentas de ChatGPT o GPT-4, pero no me di cuenta. esta desaceleración gradual en múltiples rondas de conversaciones usando ChatGPT y GPT-4.

Si queremos resolver este problema desde la perspectiva del modelo, solo tenemos un algoritmo que puede resolver este problema, y ​​es Transformer-XL [10]. Una mejora importante de Transformer-XL es proponer un mecanismo recursivo de fragmentos, como se muestra en la Figura 16. El mecanismo de recursión de fragmentos es similar a la combinación de Transformer y RNN. Su idea central es que para datos de longitud variable con longitud ilimitada, la longitud de cada fragmento es fija y las características de este fragmento se calculan durante el cálculo, y luego el next Al fragmentar, las características del fragmento anterior se agregan al fragmento actual, de modo que el modelo pueda manejar características de cualquier longitud.

Figura 16: Mecanismo de recursión de fragmentos de Transformer-XL

Respondiendo a las múltiples rondas de diálogo entre ChatGPT y GPT-4, especulo que OpenAI tomó prestada la idea de la recursividad de fragmentos de Transformer-XL. Es decir, GPT-4 luego agregará las características de la ronda t-1 y la ronda t almacenadas en caché al realizar el cálculo de la $t$ésima ronda, y las usará juntas para el cálculo de la ronda actual. Debido a que la ronda t-1 también considera las características de la ronda t-2, en teoría, este método puede obtener el contenido del diálogo de muchas rondas anteriores sin afectar el tiempo de predicción.

2.7.2 Entrada de secuencia larga

El Transformador tradicional no es bueno para lidiar con problemas de secuencias largas, porque la complejidad del Transformador con una longitud de entrada de n es O(n^2). La longitud de entrada predeterminada de Transformer es 512. La solución de Transformer para datos de entrada con una longitud superior a 512 es dividirlos en varios bloques de texto con una longitud de 512, pero esto provocará la fragmentación del contexto. XL se utiliza para resolver este problema.

Aquí presentamos el propio algoritmo de OpenAI para resolver la entrada de secuencia larga: Sparse Transformer[11], porque GPT-3 es un modo mixto de transformador ordinario y Sparse Transformer, por lo que es muy probable que Sparse Transformer también sea utilizado por GPT-4 Un modelo que maneja texto de entrada largo, pero se desconoce cómo se mezcla con el Transformador normal. La característica de Sparse Transformer es que solo presta atención al estado de las características Top-k que más contribuyen. Utiliza el mecanismo de atención escasa para reemplazar la atención intensiva de Transformer y reduce la complejidad de calcular la atención a O(n \sqrt n). El denso núcleo de atención del Transformador tradicional se descompone en Stried Attention y Fixed Attention, y cada núcleo de atención se divide en un núcleo de atención de fila y un núcleo de atención de columna. Los núcleos de atención descompuestos son todos dispersos, lo que reduce en gran medida la complejidad del modelo, como se muestra en la Figura 17.

Figura 17: Atención densa y escasa

Debido a que GPT-4 admite secuencias de datos más largas, también enumero aquí dos variantes de Transformer para procesar datos largos de manera eficiente. Debido a que el informe técnico de GPT-4 es demasiado, cuál es la estructura de red de GPT-4, solo podemos esperar el anuncio oficial de OpenAI.

2.8 Resumen de soluciones técnicas

En esta sección, hemos discutido muchas soluciones técnicas, algunas de las cuales tienen una credibilidad relativamente alta, mientras que otras tienen un alto grado de especulación. La siguiente tabla da la credibilidad de cada opción (aumentando de 1 a 5).

Aparición cadena de pensamiento autopromoción ACORTAR KOSMOS-1 Códice XLM Trans-XL Transferencia escasa
5 5 3 3 3 4 1 1 4

De acuerdo con nuestra especulación anterior, podemos suponer que la solución técnica de GPT-4 es más o menos la siguiente:

  • La primera etapa: construir un modelo de preentrenamiento multimodal y ajustarlo. El objetivo principal de esta etapa es entrenar la primera versión de GPT-4 con ciertas capacidades basadas en los datos masivos rastreados. El método de entrenamiento es similar a GPT -3. Su trabajo se centra en dos puntos: uno es construir un modelo de pre-entrenamiento multimodal basado en KOSMOS-1 u otros modelos multimodales, y usar Transformer-XL para resolver los problemas de alta complejidad de textos largos; el otro es para recopilar datos, incluidos datos masivos de rastreo, datos de aprendizaje rápido tradicionales unimodales, multimodales, datos de aprendizaje rápido de cadena de pensamiento, datos de código, etc. para entrenar el modelo.
  • La segunda etapa: Alineación de comportamiento GPT-4 El objetivo principal de esta etapa es alinear el comportamiento del modelo con el comportamiento humano basado en el marcado manual y reducir el riesgo del modelo. Hay dos modelos que deben producirse en esta etapa: uno es diseñar un modelo de recompensa basado en reglas RBRM basado en el conocimiento experto, y el otro es entrenar un modelo de recompensa basado en aprendizaje profundo RM basado en los datos de salida del datos de marcado manual y modelo de detección de alucinaciones.
  • La tercera etapa: use RBRM y RM como función de recompensa, y use RLHF para entrenar el modelo. Los métodos de entrenamiento de la segunda y tercera etapa son similares a ChatGPT.
  • La cuarta etapa: modelo de superación personal, el entrenamiento de GPT-4 puede ser una iteración cíclica y un proceso de entrenamiento con indicaciones constantes. En esta etapa, GPT-4 generará automáticamente más datos, como datos de entrenamiento de la automejora del modelo, casos de prueba de los comentarios del equipo rojo experto, etc., y usará estos datos para volver a la primera etapa para entrenar el modelo.

3. La dirección de desarrollo de GPT-4

Recientemente, también apliqué GPT-4 y ChatGPT a mi trabajo diario, y me sorprendieron profundamente las poderosas capacidades de GPT-4. No solo puede ayudarme en la programación diaria y la redacción de artículos, sino que también me ayuda a resolver algunas tareas diarias, mejorando en gran medida la eficiencia de mi trabajo. Hay innumerables artículos sobre GPT-4 con varios elogios y críticas en Internet. Aquí combinaré las soluciones técnicas que analizamos para discutir la dirección de desarrollo de GPT-4, o para predecir la posible aparición de GPT-5.

3.1 La dirección de optimización de GPT-4

Aunque GPT-4 ha demostrado sólidas capacidades en la generación de texto, generación de código, comprensión de imágenes y capacidades de razonamiento lógico, todavía tiene mucho margen de mejora. El trabajo futuro puede tener las siguientes direcciones clave:

  1. El costo actual de usar GPT-4 sigue siendo muy alto, y el costo de una ronda de diálogo con GPT-4 es de aproximadamente 1 yuan. El costo de mantenimiento de ChatGPT es de casi 1 millón de dólares estadounidenses por día. Predecimos que el volumen de parámetros de GPT-4 puede estar cerca de una escala de un billón, por lo que especulamos que su costo de mantenimiento puede ser de alrededor de 5 millones de dólares estadounidenses. Cómo aligerar el modelo para que GPT-4 pueda ser utilizado por más personas, e incluso permitir que más personas entrenen su propio GPT-4, será la dirección de la investigación en el futuro.
  2. GPT-4 no es absolutamente seguro y GPT-4 todavía tiene alucinaciones. La detección de alucinaciones de GPT-4, la confrontación del equipo rojo, RBRM, etc. no son la solución definitiva a los problemas de seguridad. Aunque ningún sistema es absolutamente seguro, OpenAI ha invertido mucho en seguridad para mitigar los riesgos legales que pueden enfrentar.
  3. GPT-4 sigue siendo un modelo fuera de línea. Una razón importante por la que GPT-4 no puede reemplazar a los motores de búsqueda es que su conocimiento no se actualiza en tiempo real. Su nivel de conocimiento depende de la fecha de corte para la que rastrea datos, lo que le impedirá abordar noticias, conceptos, eventos, etc. que surjan después de la fecha de corte.
  4. GPT-4 es todavía una exploración preliminar de la multimodalidad. La multimodalidad y el LLM pueden ser las dos direcciones más importantes de AGI en los próximos años. OpenAI en sí también tiene mucho trabajo maravilloso en la dirección de la multimodalidad. Cómo aprovechar aún más la capacidad de GPT-4 en la dirección de la multimodalidad, involucrando más modalidades y más aplicaciones será el próximo trabajo clave de OpenAI.

3.2 Aplicación de GPT-4

GPT-4, con sus poderosas capacidades generativas y capacidades de razonamiento lógico, puede afectar en gran medida la forma en que trabajamos. Creo que muchos lectores de este artículo están involucrados en investigaciones y trabajos científicos relacionados con algoritmos. Animo a todos a usar GPT-4, incluso ChatGPT. Entonces, ¿qué funciones de GPT-4 son muy útiles para nosotros? Aquí enumero varias direcciones que creo que son más útiles según mi experiencia:

  1. Escribir código funcional , pedirle a GPT-4 que escriba un marco complejo que satisfaga una función específica puede requerir que le proporcione sugerencias complejas, y también necesita verificar el código que genera. Sin embargo, si se permite que GPT-4 implemente algunas funciones funcionales menos difíciles, como construir una red o implementar una función funcional, la usabilidad del código generado por GPT-4 sigue siendo muy alta.
  2. Pulir el texto . Como personal técnico de investigación y desarrollo, nuestra escritura puede no ser buena. En este momento, podemos usar GPT-4 para ayudarnos a pulir los artículos que escribimos. Especialmente cuando escribimos documentos o correos electrónicos en inglés, GPT-4 puede ayudarnos a resolver problemas de Chinglish.
  3. Después de leer el documento , GPT-4 no solo es una excelente herramienta de traducción automática, sino que, después de probarlo, su efecto de traducción es muy superior a los modelos tradicionales de traducción automática en términos de profesionalismo y coherencia. Además, GPT-4 también puede realizar algunos trabajos de resumen, generalización y extracción, lo que nos permite comprender rápidamente la tecnología central de un documento. ChatPDF basado en ChatGPT es un asistente muy poderoso para leer documentos. La Figura 18 muestra que uso ChatGPT para ayudarme a leer el contenido generado de GPT-4.
    Figura 18: Trabajo de GPT-4 para mejorar la seguridad generado por ChatPDF basado en el informe técnico de GPT-4
  4. En el trabajo diario , GPT-4 es muy bueno para escribir anuncios oficiales, discursos, cartas de agradecimiento y otros contenidos, y también es muy bueno para resumir y resumir el trabajo, puede mejorar nuestra eficiencia humana en estos aspectos. Para cosas sin ideas, también intentaré preguntar a GPT-4, que muchas veces me puede ayudar a abrir la mente.

Tenga en cuenta que GPT-4 no resuelve por completo los problemas de seguridad como las alucinaciones. Frente al contenido generado por GPT-4, es mejor que realicemos una revisión estricta antes de usarlo, de lo contrario pueden ocurrir algunos problemas inexplicables. También es por esta razón que GPT-4 no puede reemplazar al personal profesional dedicado a esta área, porque antes de que se resuelvan los problemas de seguridad de GPT-4, siempre se necesitan profesionales para verificarlos, y los problemas de seguridad de GPT-4 pueden ser Acompañar todo el ciclo de vida del modelo generativo.

4. Otros LLM

Con la propuesta de ChatGPT y GPT-4, las empresas nacionales y extranjeras siguieron rápidamente, lo que provocó un aumento en el desarrollo de modelos LLM, y muchas empresas han propuesto su propio LLM.

Entre ellos, los trabajos representativos en China incluyen los siguientes trabajos.

  • Wenxinyiyan de Baidu: Wenxinyiyan de Baidu ( ERNIE -Bot) es el primer modelo grande de seguimiento previo al entrenamiento en China, pero Baidu siempre ha mantenido en secreto su tecnología de trabajo. Sin embargo, a juzgar por su demostración y los resultados de las pruebas de muchos probadores, Wen Xinyiyan es como una combinación de ingeniería de las muchas tareas de IA de Baidu;
  • Tongyi Qianwen de Ali: Tongyi Qianwen es un modelo de generación de texto construido con Transformer-XL y tiene 2 mil millones de parámetros. Según los comentarios de los internautas que recibieron el código de invitación, el efecto de generación de texto de Tongyi Qianwen es ligeramente peor que el de Wenxin Yiyan.
  • Rixin de SenseTime: a juzgar por el efecto de visualización de la conferencia de prensa, Rixin de SenseTime es actualmente el mejor LLM en China e incluso logró un efecto similar al de ChatGPT. Ririxin incluye cinco funciones principales: "Consulta", "Miaohua", "Ruying", "Qiongyu" y "Gewu", entre las cuales "Consulta" está alineada con GPT-4.
  • GLM de la Universidad de Tsinghua: GLM [17] es un modelo de idioma bilingüe de código abierto que utiliza capacitación en inglés y chino lanzado conjuntamente por la Universidad de Tsinghua y Zhipu AI. La escala máxima de parámetros ha alcanzado los 130 mil millones. El efecto de GLM-130B está entre GPT- 3 y ChatGPT entre. GLM también lanzó ChatGLM y GLM-6B, que se pueden ejecutar y ajustar en una sola máquina, que actualmente es el mejor modelo grande de preentrenamiento chino de código abierto.
  • MOSS de la Universidad de Fudan: MOSS es el equipo del Sr. Qiu Xipeng del Laboratorio de PNL de la Universidad de Fudan, y recientemente ha abierto códigos relacionados. A juzgar por el efecto actual, MOSS no está muy maduro, pero la buena noticia es que el equipo del profesor Qiu ha estado optimizando MOSS.

No solo el seguimiento rápido nacional, las empresas líderes extranjeras también han lanzado su propio LLM, de los cuales los representativos son:

  1. LLaMA de MetaAI: LLaMA [19] tiene cuatro tamaños de parámetros: 7 mil millones, 13 mil millones, 33 mil millones y 65 mil millones. A diferencia de OpenAI, MetaAI ha abierto su código y modelos y admite la implementación en una sola máquina. Aunque el efecto de LLaMA no es tan bueno como GPT-4, sus características independientes y de código abierto han atraído el desarrollo secundario por parte de muchas instituciones e individuos.
  2. PaLM y LaMDA de Google: PaLM [20] es un modelo de lenguaje propuesto por Google con una estructura similar a la serie GPT, con un volumen total de parámetros de 540 mil millones. Google lanzó recientemente un modelo multimodal PaLM-E [21] que combina capacidades de imagen. LaMDA[22] es un modelo de lenguaje lanzado por Google para generar un modelo de lenguaje más natural y humano, con expresiones más cercanas a las humanas.LaMDA se ha mejorado sobre la base de GPT-3, agregando más escenas de diálogo y emociones La capacidad de comprensión puede simular mejor el diálogo y el pensamiento humanos. Incluso el investigador de Google, Blake Lemoine, se lamentó después de probar LaMDA por un tiempo: es posible que LaMDA ya tenga personalidad.
  3. Claude of Anthropic: Anthropic es una empresa de inteligencia artificial fundada por ex empleados de OpenAI y respaldada por Google R&D. También lanzaron recientemente su LLM: Claude. Actualmente, el efecto de Cluade es ligeramente más fuerte que ChatGPT, pero significativamente más débil que GPT-4.

Además de los anteriores, los LLM extranjeros incluyen BLOOM de BigScience, Alpaca de Stanford, METALM de Microsoft, KOSMOS-1, etc., Pangu de Huawei nacional, WeLM de Tencent, etc. Además de estos modelos generales, LLM también se utiliza en campos subdivididos, como HuaTuo[23] en el campo médico, BloombergGPT[24] en el campo financiero, etc.

5. Resumen

Si GPT-4 traerá la cuarta revolución industrial es un tema que necesita tiempo para verificar, y no estoy calificado para dar una conclusión aquí, pero GPT-4 tiene un gran impacto en mí personalmente.

En primer lugar, ha sacudido en cierta medida mi comprensión de la inteligencia artificial tradicional. Así como muchos teoremas de macrofísica no son válidos en microfísica, muchas de las experiencias que he acumulado en inteligencia artificial tradicional no son válidas en GPT-4. . Sus poderosas capacidades de aprendizaje de muestra cero y capacidades de nivel superior van mucho más allá de mi comprensión tradicional del aprendizaje profundo.

En segundo lugar, GPT-4 y ChatGPT se están convirtiendo en los asistentes más poderosos en el trabajo diario. GPT-4 también me brindó una gran ayuda al escribir este artículo. No solo puede ayudarme a escribir códigos, modificar artículos, sino que incluso me ayuda a resolver problemas que no funcionan. problemas. Al final, los muchos modelos grandes diferentes que han surgido como hongos han inyectado nueva confianza y vitalidad en mi aprendizaje profundo cada vez más pesimista.

Para la tecnología de GPT-4, sugiero que todos deberían entenderla y aprender a usarla. Independientemente de si tu trabajo está relacionado con la informática o no, te traerá alguna ayuda, incluso si eres cocinero, puede generar una receta deliciosa para ti. Cuando usamos GPT-4, también debemos mirar racionalmente el contenido que genera, solo GPT-4 tiene un problema de riesgo leve, y no podemos relajar nuestra revisión para evitar que el problema de la alucinación nos cause pérdidas.

En el futuro, GPT-4 definitivamente nos traerá muchas influencias. En primer lugar, una gran cantidad de contenido indistinguible generado por GPT-4 surgirá rápidamente en Internet. Vale la pena preguntarse si el público se verá afectado por el patrón de comportamiento unificado de GPT-4. En segundo lugar, GPT-4 liberará en gran medida la productividad de algunos trabajos e incluso los reemplazará. Si podemos aprovechar esta oportunidad, es muy importante ver nuevas oportunidades en este entorno entrelazado. Finalmente, la forma en que GPT-4 afectará a todos es diferente. Si GPT-4 realmente trae AGI, espero que mis amigos no se lo pierdan.

Referencia

  • [1] https://cdn.openai.com/papers/gpt-4.pdf

  • [2] https://zhuanlan.zhihu.com/p/614340292

  • [3] Chen M, Tworek J, Jun H, et al. Evaluación de grandes modelos de lenguaje entrenados en código[J]. preimpresión de arXiv arXiv:2107.03374, 2021.

  • [4] Bai, Yuntao, et al. "Entrenar a un asistente útil e inofensivo con aprendizaje reforzado a partir de la retroalimentación humana". preimpresión de arXiv arXiv:2204.05862  (2022).

  • [5] Wei J, Tay Y, Bommasani R, et al. Habilidades emergentes de grandes modelos de lenguaje [J]. preimpresión arXiv arXiv:2206.07682,

  • [6] Wei J, Wang X, Schuurmans D, et al. La cadena de pensamiento provoca el razonamiento en grandes modelos de lenguaje [J]. preimpresión de arXiv arXiv:2201.11903, 2022.

  • [7] Huang J, Gu SS, Hou L, et al. Los modelos de lenguaje grande pueden mejorarse a sí mismos[J]. preimpresión de arXiv arXiv:2210.11610, 2022.

  • [8] Radford, Alec, et al. "Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural". Conferencia Internacional sobre Aprendizaje Automático . PMLR, 2021.

  • [9] Guillaume Lample y Alexis Conneau. Preentrenamiento del modelo lingüístico multilingüe. preimpresión de arXiv arXiv:1901.07291 , 2019.

  • [10] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V.Le y Ruslan Salakhutdinov. Transformer-XL: modelos de lenguaje atento más allá de un contexto de longitud fija. preimpresión de arXiv arXiv:1901.02860 , 2019.

  • [11] Rewon Child, Scott Gray, Alec Radford e Ilya Sutskever. Generación de secuencias largas con transformadores dispersos. preimpresión de arXiv arXiv:1904.10509 , 2019.

  • [12] Huang, Shaohan, et al. "El lenguaje no es todo lo que necesitas: alinear la percepción con los modelos de lenguaje". preimpresión de arXiv arXiv:2302.14045  (2023).

  • [13] Hao, Yaru, et al. "Los modelos de lenguaje son interfaces de propósito general". preimpresión de arXiv arXiv:2206.06336  (2022).

  • [14] Zhang, Zhuosheng, et al. "Razonamiento de cadena de pensamiento multimodal en modelos de lenguaje". preimpresión de arXiv arXiv:2302.00923  (2023).

  • [15] Liu, Tianyu, et al. "Un punto de referencia de detección de alucinaciones sin referencia a nivel de token para la generación de texto de forma libre". preimpresión de arXiv arXiv:2104.08704  (2021).

  • [16] Zhou, Chunting, et al. "Detección de contenido alucinado en la generación de secuencias neuronales condicionales". preimpresión de arXiv arXiv:2011.02593  (2020).

  • [17] Du, Zhengxiao, et al. "GLM: entrenamiento previo del modelo de lenguaje general con relleno en blanco autorregresivo". Actas de la 60.ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Documentos extensos) . 2022.

  • [18] Zhao, Wayne Xin, et al. "Una encuesta de modelos de lenguaje grande". preimpresión de arXiv arXiv:2303.18223  (2023).

  • [19] Touvron, Hugo, et al. "Llama: Modelos lingüísticos fundacionales abiertos y eficientes". preimpresión de arXiv arXiv:2302.13971  (2023).

  • [20] Chowdhery, Aakanksha, et al. "Palm: modelado de lenguaje a escala con vías". preimpresión de arXiv arXiv:2204.02311  (2022).

  • [21] Driess, Danny, et al. "Palm-e: un modelo de lenguaje multimodal incorporado". preimpresión de arXiv arXiv:2303.03378  (2023).

  • [22] Thoppilan, Romal, et al. "Lamda: modelos de lenguaje para aplicaciones de diálogo". preimpresión de arXiv arXiv:2201.08239  (2022).

  • [23] Wang, Haochun, et al. "HuaTuo: ajuste del modelo LLaMA con conocimiento médico chino". preimpresión de arXiv arXiv:2304.06975  (2023).

  • [24] Wu, Shijie, et al. "BloombergGPT: un gran modelo de lenguaje para finanzas". preimpresión de arXiv arXiv:2303.17564  (2023).

  • [25] Bubeck, Sébastien, et al. "Chispas de inteligencia general artificial: primeros experimentos con gpt-4". preimpresión de arXiv arXiv:2303.12712  (2023).

  • [26] Lin, Stephanie, Jacob Hilton y Owain Evans. "Truthfulqa: Midiendo cómo los modelos imitan las falsedades humanas". preimpresión de arXiv arXiv:2109.07958  (2021).

Autor: JD Retail Liu Yan

Fuente de contenido: comunidad de desarrolladores de JD Cloud

{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/4090830/blog/8816351
Recomendado
Clasificación