El origen del ingeniero puntual y cómo piensa GPT

Debido a que recientemente recibí algunas invitaciones de trabajo de los ingenieros de Prompt en el software de reclutamiento, el salario mensual es de entre 35 y 45 mil, que es mucho dinero.

"Pero personalmente tengo dudas sobre el concepto de ingeniero de Prompt. Siempre siento que si lo hago bien, aceleraré el progreso de ser despedido. Además, ser un diseñador de Prompt en un campo es demasiado vertical y la energía invertida no se puede acumular.

Así que vi el último discurso de Microsoft compilado por Baoyu, enseñándonos "cómo entrenar y aplicar GPT" [1].

Después de leerlo, me hizo sentir que los ingenieros de Prompt son cerdos en el viento y, al mismo tiempo, tengo una comprensión más profunda del modo de pensamiento de Prompt y GPT.

En pocas palabras, el núcleo de GPT es la "imitación", y Prompt es dar a GPT una muestra de imitación.

Para ampliar, echemos un vistazo al siguiente contenido.

  • token y casa china

¿También eres vago sobre el concepto de "token"? Qué GPT se ha actualizado para admitir más entradas y salidas de tokens.

Pero, ¿qué es la ficha?

De hecho, las fichas que la gente suele decir son originalmente un montón de palabras de colores divididas en la segunda imagen del lado derecho de la imagen de abajo.

Cuando GPT está funcionando, convertirá el texto recibido (la primera imagen en el lado derecho de la imagen de arriba) en una matriz de números (la tercera imagen en el lado derecho de la imagen de arriba) a través de anotaciones segmentadas (la segunda imagen en el lado derecho de la imagen de arriba).

Luego, tome esta cadena de números aparentemente sin sentido e introdúzcalos en la red neuronal.

Deje que Transform maneje los pesos de estas entradas y finalmente nos devuelva el resultado. Solo hay 3 capas de redes neuronales entre la entrada y la salida en la imagen de arriba, y ahora se dice que GPT tiene 80 capas.

Volviendo al tema, ¿ha notado que el proceso de conversión de "texto" en "números" de GPT es un poco como una "sala china"?

El concepto de "Habitación china" proviene del artículo de John Rogers Searle "Mind, Brain and Program". Su proceso experimental se puede expresar de la siguiente manera:

Una persona que no sabe nada de chino y solo habla inglés está encerrada en una habitación cerrada con una sola abertura. Hay un manual en inglés en la habitación con instrucciones sobre qué hacer con los mensajes entrantes en chino y cómo responder en consecuencia en chino. Las personas fuera de la sala seguían pasando preguntas escritas en chino a la sala. Las personas en la sala siguieron las instrucciones del manual, buscaron las instrucciones apropiadas, combinaron los caracteres chinos correspondientes en las respuestas a las preguntas y entregaron las respuestas fuera de la sala.

John Searle cree que aunque las personas en la sala fingen ser reales, las personas fuera de la sala creen que habla chino, pero en realidad no entiende chino en absoluto.

Podemos entenderlo así: en el proceso anterior, el papel del forastero es equivalente al programador, la persona en la habitación es equivalente a la computadora y el manual es equivalente al programa de computadora.

Cada vez que alguien fuera de la habitación da una "entrada", la persona dentro de la habitación dará una "salida" de acuerdo con el manual (programa de computadora).

Y así como es imposible que una persona en una habitación entienda chino a través de un manual, es imposible que una computadora adquiera comprensión a través de un programa. Dado que las computadoras no tienen la capacidad de comprender, lo que se llama "las computadoras son inteligentes" está aún más fuera de discusión.

En otras palabras, GPT en sí mismo no entiende lo que genera, solo pasa a través de aproximadamente 80 capas (no muchas) de redes neuronales, infiere el número más probable después de cada número (token) y luego se lo devuelve, que es el principio de la PNL.

Entonces, lo que la gente suele pensar acerca de que la IA gobierna el mundo puede estar demasiado lejos.

  • Cómo piensa GPT

Cuando escribimos algo, hay casi un sistema independiente mirando y pensando en lo que escribimos. Por lo general, tenemos un "monólogo interno", leemos la oración completa en silencio en nuestros corazones, anticipamos qué escribir en la siguiente oración y luego verificamos si el contenido escrito es fluido y lógico en su conjunto.

Así que "escribir" o incluso "hablar" (observar palabras y emociones) es en realidad un proceso complicado.

Pero GPT no piensa de esa manera.

La salida de contenido de GPT es un token independiente, que puede imaginarse como "pequeños bloques" individuales. Cuando GPT calcule cada token, le prestará la misma atención, lo que significa que cada token es igualmente importante para GPT. Entonces no puede esperar que GPT sepa dónde desea enfocarse en la salida.

Cuando GPT está emitiendo, no es como usted. No hace una reflexión circular, ni realiza ninguna verificación de racionalidad "antes de entregar el papel". Emite tan pronto como se emite.

GPT es solo razonar e imitar la siguiente palabra.

Pero también tiene ventajas: tiene un conocimiento fáctico masivo, decenas de miles de millones de parámetros y una memoria de trabajo perfecta.

Debido a la diferencia entre nuestro modo de pensamiento y GPT, existen los llamados ingenieros rápidos. El papel de esta posición es construir un puente entre nuestro cerebro y el cerebro de GPT, para lograr el propósito de hacer que GPT piense más como un ser humano.

  • Principios de prontitud

Por lo tanto, cuando usa GPT, especialmente para responder preguntas lógicas, no puede esperar que use directamente un token para responder sus preguntas complejas como las respuestas de referencia que omiten el proceso.

Dale a GPT algunos tokens para pensar.

Puede dejar que "envíe la respuesta paso a paso", para que GPT pueda mostrar su "proceso de resolución de problemas", reduciendo así la carga de trabajo de GPT al generar cada token. De esta forma, se puede mejorar la probabilidad de que GPT responda correctamente.

Puedes decir algo como esto:

Repasemos esto paso a paso para asegurarnos de obtener la respuesta correcta.

Es posible que haya descubierto que lo que mejor hace GPT es la "imitación".

Ya sea para permitir que GPT desempeñe un papel determinado o para dar ejemplos, deje que GPT "resuelva problemas" paso a paso, es para mejorar el efecto de salida de GPT.

En este momento, sentiré que las plantillas GPT útiles que usé antes tienen algunos puntos en común, es decir, enfatizan la "imitación" y dan "ejemplos".

En resumen, los ingenieros de Prompt deben tener una comprensión profunda del negocio, así como buenas habilidades lingüísticas (para escribir Prompts concisos y fáciles de entender) y habilidades de pensamiento lógico (para proporcionar materiales para que GPT los imite). paso a paso) Esta posición puede ser necesaria para industrias muy verticales (como la médica).

inspiración

1.

La experiencia viene de lo que hemos hecho. La sabiduría viene de lo que hemos hecho mal.

La experiencia viene de lo que hemos hecho. La sabiduría viene de las cosas que arruinamos.

2.

Descubrí que cultivar el estado de ánimo que te permite disfrutar de tu trabajo creativo vale unas horas extra de tu tiempo. —Entrevista con BJ Nowak, "Herramientas de gigantes"

3.

El conocimiento debe cotejarse, refinarse, desafiarse y mejorarse constantemente, o desaparecerá. -Peter Drucker

4.

Hay tantas palabras nuevas en el mundo.

Cuando estudié DeepLearning en 21 años, nunca escuché una palabra llamada "LLM", pero recientemente la seguía viendo en los requisitos de contratación.

La introducción en Wikipedia [4] está organizada de la siguiente manera, "aunque no hay una definición formal", Khan:

Un modelo de lenguaje grande (LLM) es un modelo de lenguaje computarizado que consta de una red neuronal artificial con muchos parámetros (de decenas de millones a miles de millones), entrenada en grandes cantidades de texto sin etiquetar mediante aprendizaje autosupervisado o semisupervisado. Los LLM surgieron alrededor de 2018 y funcionan bien en una variedad de tareas. Esto ha cambiado el enfoque de la investigación de la PNL lejos del paradigma anterior de entrenar modelos supervisados ​​especializados para tareas específicas.

Si bien el término modelo de lenguaje grande no tiene una definición formal, generalmente se refiere a modelos de aprendizaje profundo con millones o incluso miles de millones de parámetros que han sido "entrenados previamente" en corpus grandes. Los LLM son modelos generales que son buenos en una amplia gama de tareas, en lugar de estar capacitados en una tarea específica, como el análisis de sentimientos, el reconocimiento de entidades nombradas o el razonamiento matemático.

 

 

Supongo que te gusta

Origin blog.csdn.net/qq_16027093/article/details/131785649
Recomendado
Clasificación