Hablando sobre la tecnología clave y el desarrollo de la implementación de ChatGPT

Compartiendo invitado | Liu Huanyong

Arreglo manuscrito | William


1. Mirando el origen y la esencia de ChatGPT desde un modelo de lenguaje a gran escala

Para entenderlo, ChatGPT se puede dividir en Chat y GPT. El primero representa un formulario de solicitud y el segundo es un modelo generativo. Se define en la Enciclopedia de Baidu como ChatGPT es una herramienta de procesamiento de lenguaje natural impulsada por tecnología de inteligencia artificial. Puede realizar conversaciones aprendiendo y entendiendo el lenguaje humano, y también puede interactuar de acuerdo con el contexto del chat. Chatea y comunícate como humanos, y Incluso puede escribir algunos correos electrónicos, guiones de video, redacción, traducción, código, redacción de documentos y otras tareas. En la actualidad, todos están haciendo interpretación y algunas conjeturas, y no hay informes ni documentos oficiales. Algunos términos clave aquí deben entenderse primero:

Figura 1 Términos clave

ChatGPT es esencialmente un modelo de procesamiento de lenguaje natural basado en GPT, que utiliza un transformador para predecir la distribución de probabilidad de la siguiente palabra y luego aprende ese patrón en un corpus de texto a gran escala. La inteligencia de GPT1 a GPT3 mejora constantemente. En ese momento, GPT1 tenía solo 117 millones de parámetros, luego GPT2 se convirtió en 1500 millones de parámetros y GPT3 llegó a 175000 millones. Hasta más tarde, comenzamos a afinar las instrucciones debido a la calidad generada. A veces no es especialmente bueno, déjelo ajustarse a un criterio de 600H tanto como sea posible, es decir, para aprender más habilidades y mejorar sus resultados a través del aprendizaje de retroalimentación.

El desarrollo y los cambios de todo el ChatGPT son cambios en la serie de transformadores en su conjunto. Al realizar tareas de NLP desde 1950, es una pequeña cantidad de procesamiento de datos basado en reglas, y luego se usa el aprendizaje automático para clasificar parámetros de acuerdo con un cierto rango de datos. Más tarde, CNN se usa para codificar para representar características, y luego se descubre que la atención de múltiples cabezas La capacidad de codificación de la fuerza es obviamente más fuerte que la de la red neuronal, y luego se divide en tres rutas: una es la serie GPT, que es básicamente una iteración al año, la segunda es T5, y el tercero es BERT. En la actualidad, las dos principales se muestran en la Figura 2. La única diferencia entre las dos arquitecturas radica en la capa de entrada, cada una de las cuales solo está relacionada con las anteriores, de modo que la información contextual se puede capturar por completo, lo que facilita la entender.

Figura 2 Dos arquitecturas principales

Cuando experimenta ChatGPT, su principio de funcionamiento interno es un método comparativo. Por ejemplo, deje que ChatGPT escriba un artículo. Es esencialmente una forma de repetir cuál debería ser la siguiente palabra en el texto actual y calcular la que tiene la mayor probabilidad. Finalmente , para completar la tarea. Así que esto en realidad está controlado por una probabilidad, pero la esencia de esta probabilidad está controlada por un modelo de lenguaje.

No sé lo que escribí en absoluto, pero estoy muy seguro de que la siguiente palabra tiene la mayor probabilidad de coincidir con la palabra anterior.

Entonces, esto lleva a una tontería grave que se puede ver en el ChatGPT actual.

Echemos un vistazo primero a GPT1 de la serie GPT. En realidad, es un entrenamiento previo multitarea de propósito general para crear un paradigma de ajuste fino. En comparación con el transformador, ha realizado cambios significativos. El primer aspecto es que solo se entrena un decodificador de 12 capas. El segundo es que, en comparación con el BERT de Google, en realidad solo usa las predicciones anteriores y no verá información contextual. Por lo tanto, solo se usa la parte del decodificador, y su estructura es lo suficientemente simple para realizar bien la comprensión del lenguaje y es adecuada para el campo de la generación de texto, pero hay defectos relativamente grandes en el lenguaje general y la comunicación conversacional.

GPT2 ha realizado muchas mejoras sobre la base de GPT1. La primera es que hay más fuentes de información y los datos de todo el flujo de datos se han ampliado a 40 G. La segunda es que el número de capas ha aumentado a 48. , y la dimensión de la capa oculta ha aumentado a 1600, logrando 1.500 millones de parámetros. El tercero es dejar de ajustar el modelado para diferentes tareas y solo modelarlo como una tarea de clasificación. Pero también hay algunos problemas. En primer lugar, desde un punto de vista práctico, cada nueva tarea requiere grandes datos etiquetados, lo que limita la aplicabilidad del modelo de lenguaje. El segundo aspecto es la forma de pre-entrenamiento y ajuste entre ellos, la capacidad de generalización será relativamente pobre.La tercera razón es que el aprendizaje humano no requiere grandes conjuntos de datos supervisados, por lo que en realidad hay ciertas limitaciones en este concepto.

Para resolver estos problemas, GPT3 usó la idea del aprendizaje en contexto para hacer que el modelo lograra mejores resultados y luego generó más datos, tirando directamente de los parámetros a una escala de 175B.

2. Varios problemas técnicos clave, proyectos de código abierto y desafíos de implementación de ChatGPT

2.1 El algoritmo central y los datos centrales de ChatGPT

La retroalimentación humana se agrega a Instruct-GPT para guiar, entonces, ¿por qué necesitamos agregar esta retroalimentación? Debido a que existen algunos problemas con GPT3 en la actualidad, incluida la calidad de generación desigual, la facilidad para producir algunos resultados fluidos pero inútiles o incluso dañinos, y la capacidad de comprensión deficiente de zero-shot. Sin embargo, simplemente aumentar el tamaño del modelo de lenguaje no puede resolver estos problemas, por lo que se requiere un aprendizaje reforzado con retroalimentación humana para el ajuste fino.

El ajuste fino incluye estos pasos: primero, se proporcionan algunos datos de ajuste fino, luego se entrena el modelo de recompensa y luego el aprendizaje de refuerzo optimiza el STF y lo itera. Sin embargo, hay muchas maneras en que las personas pueden dar su opinión. La primera es marcar las indicaciones requeridas y la otra es dejar que el modelo clasifique la calidad de los resultados generados y luego usar el aprendizaje por refuerzo para guiar al modelo hacia una mejor dirección. .

Instruct-GPT está entrenado en base al aprendizaje de refuerzo de la retroalimentación humana. La Figura 3 muestra todo el proceso muy claramente. Hay tres etapas principales aquí: la primera etapa es un modelo de estrategia de arranque en frío, que extrae aleatoriamente instrucciones o preguntas enviadas por los usuarios (es decir, prompt ), y luego realice el etiquetado manual, use estas indicaciones específicas y respuestas de alta calidad para ajustar el modelo GPT3 para que se ajuste tanto como sea posible para generar un modelo; la segunda etapa es la etapa de recompensa de capacitación, puntuando el resultado resultados del modelo de pre-entrenamiento, Cuanto mayor sea el puntaje, mejor será la calidad de la respuesta; la tercera etapa es utilizar el aprendizaje por refuerzo para mejorar la capacidad del modelo de pre-entrenamiento, que es equivalente a retroalimentar el puntaje al STF original para permitir que el modelo genere respuestas de mayor calidad.

Figura 3 Proceso Instructor-GPT

El aprendizaje supervisado SFT, como algoritmo central en GPT, recopila principalmente el conjunto de datos de cómo se genera el modelo esperado escrito manualmente, de modo que pueda usarse para entrenar un modelo generativo. Los datos utilizados son un par de solicitud y respuesta. Parte de la recopilación de este conjunto de datos proviene de usuarios que usan openAI y, por otro lado, provendrá de algunos ingenieros en openAI que lo escribieron ellos mismos y contrataron anotadores. De hecho, si desea hacer esto, hay varias opciones. Primero, puede recopilar datos de Baidu Zhizhi o foros, pero debe analizarlos cuidadosamente. Segundo, algunas personas en la empresa tienen algunos conocimientos y requisitos para el código. La tercera forma menos rentable es contratar a algunas personas para obtener el conjunto de datos.

Otro algoritmo central es el modelo de recompensa, que en realidad es una colección de conjuntos de datos ordenados entre múltiples salidas del modelo etiquetado manualmente. Use el modelo de ajuste fino SFT para hacer predicciones y obtener N resultados para la salida. Los datos ordenados se usan para entrenar el modelo de recompensa, y la función de pérdida también se calcula en función de los resultados de la selección manual. Pasos específicos: el primer paso es generar un modelo SFT, generar aleatoriamente K candidatos para cada mensaje, el segundo paso es seleccionar dos candidatos y formar una tupla con el mensaje, y realizar la expansión C(K,2) para generar más etiquetados. datos; el tercer paso es clasificar y puntuar los dos candidatos de acuerdo con la calidad; el cuarto paso es enviar el grupo de datos de entrenamiento C(K,2) generado como un lote al modelo RM para el entrenamiento por pares. Dado que la entrada de la función de pérdida es una tupla, la salida es la diferencia entre las dos recompensas candidatas que valen sigmoide y luego log, por lo que puede considerarse como un modelo de regresión.

El último algoritmo central es el aprendizaje por refuerzo PPO, que utiliza el modelo de recompensa como función de recompensa para ajustar el modelo generado por el aprendizaje supervisado en forma de PPO. Cada paso calcula la divergencia KL entre el modelo generado entrenado en el primer paso. El objetivo es desviarse del modelo de generación original sin refuerzo de aprendizaje.La función de pérdida es la siguiente:

Los pasos específicos son los siguientes: el primer paso es inicializar el modelo de estrategia PPO mediante el modelo SFT ajustado e inicializar la función de valor mediante el modelo RM generado. El segundo paso es muestrear aleatoriamente un aviso del conjunto de datos de PPO y generar un resultado de salida a través del modelo de estrategia de PPO del primer paso; el tercer paso es llevar el aviso y el resultado al modelo RM para calcular el valor de la recompensa recompensa; el cuarto paso es utilizar la recompensa Para actualizar los parámetros del modelo de política de PPO. Finalmente, repita los pasos 2 a 4 hasta que el modelo de estrategia PPO converja 

A continuación, hablemos de algunos problemas en los datos de entrenamiento. GPT3 está entrenado en un total de 300B tokens, el 60% de los cuales provienen de rastreo común, y otros incluyen webtext2, books1, books2 y Wikipedia. Pero no es que cuantas más cosas sobre los datos mejor, se inclina más por la calidad de los datos, si la calidad es mayor el efecto será bueno. Entonces, al hacer datos de entrenamiento de GPT3, hay un conjunto de trabajo de ingeniería de datos, que incluye tres etapas de clasificación de datos, cómo lavar datos y cómo obtener datos. La otra es deduplicar el conjunto de datos.La deduplicación ayuda a evitar que el modelo previamente entrenado recuerde o ajuste en exceso los mismos datos después de enfrentar los mismos datos muchas veces, lo que ayuda a mejorar la capacidad de generalización del modelo. Hay otro aspecto de la diversidad, que incluye la diversidad de dominios, la diversidad de formatos y la diversidad de idiomas, incluida la mayor variedad posible de datos.

Los datos de entrenamiento de GPT3 tienen un proceso de procesamiento y limpieza. El primero es filtrar los datos del rastreador en función de la comparación de similitud con una serie de corpus de referencia de alta calidad. El otro es filtrar los documentos dentro del conjunto de datos y entre conjuntos de datos. La deduplicación es se realiza y, en última instancia, se agrega un corpus de referencia conocido de alta calidad a la combinación de entrenamiento para mejorar la diversidad del conjunto de datos.

La distribución después de la limpieza se muestra en la Figura 4.

Figura 4 Distribución de conjuntos de datos para entrenar GPT3

Dado que la proporción de entonación china en GPT3 no es muy alta, ¿por qué el efecto se muestra en chino mejor que en algunos modelos grandes en China? La pregunta que surge de esto es ¿cómo adquirir la capacidad multilingüe de GPT? De los datos oficiales de PPT, podemos ver que el chino solo representa el 0,12 % del número de documentos, y para la palabra completa, representa el 0,1 %. Entonces, ¿significa que muchas cosas en inglés se han registrado mejor? Sí, y luego, durante el entrenamiento, el modelo realizó automáticamente la alineación de traducción. Por supuesto, esto es solo una suposición.

El segundo es su capacidad de dibujo de tablas. Al usar GPT, puede encontrar que las cosas subyacentes están escritas en Markdown a través de la depuración. Si usa este código, puede encontrar en el código fuente que usará algunos comentarios oficiales o algunas funciones. Definido como una pregunta, la respuesta puede ser una pregunta de función una por una, y luego se puede generar una gran cantidad de conjuntos de datos de esta manera y luego entrenarlos.

Otro punto central es la construcción de datos RLFH. El primero es controlar estrictamente la calidad de la población etiquetada, y el segundo es etiquetar la fuente de datos. Estos datos incluyen tres tipos de datos. El primero se escribe manualmente, incluidos algunos aleatorios. Indicaciones, y al mismo tiempo Garantizar la diversidad de tareas tanto como sea posible. En segundo lugar, no solo necesita escribir algunas indicaciones, sino que también debe escribir la respuesta correspondiente. El tercero es diseñar de acuerdo con un caso de uso. Luego hay tres criterios para marcar: útil, verdadero e inofensivo. Al etiquetar, se marcan tres conjuntos de datos, uno es el conjunto de datos SFT, que tiene solo alrededor de 13 K, el otro es el conjunto de datos RM, principalmente el indicador real, que tiene aproximadamente 33 K, y el último es el conjunto de datos PPO, que es Prompt completamente real, basado en 10 tipos diferentes de tareas de generación proporcionadas por diferentes usuarios, con un total de 31K.

2.2 Algunas reflexiones sobre el poder de cómputo, el equipo y la tecnología de ChatGPT

Tal vez todos se pregunten cuánto cuesta ChatGPT. Guosheng Securities emitió un informe antes de que el costo de la capacitación de ChatGPT es de aproximadamente 1,4 millones de dólares EE. UU. Para algunos modelos más grandes, puede costar entre 2 millones de dólares EE. UU. y 12 millones de dólares EE. UU. Según el número promedio de visitantes únicos de ChatGPT en enero de 13 millones, la demanda de chips correspondiente es de más de 30 000 GPU NVIDIA A100, el costo de inversión inicial es de aproximadamente 800 millones de dólares estadounidenses y el costo diario de electricidad es de aproximadamente 50 000 dólares estadounidenses. Si el ChatGPT actual se implementa en cada búsqueda realizada por Google, se requieren 512820,51 servidores A100 HGX y un total de 4102568 GPU A100, y el costo total de estos servidores y redes supera los $ 100 mil millones solo en CAPEX. Una serie de procesos de ingeniería, como la recopilación de datos, la limpieza y el etiquetado manual en el lado de los datos, también requieren una gran inversión.

El equipo de openAI que lo respalda es líder mundial en IA y también tiene productos para otras tareas multimodales. OpenAI se estableció a fines de 2015. El objetivo de la organización es abrir las patentes y los resultados de la investigación al público a través de la "cooperación libre" con otras instituciones e investigadores. En 2019, OpenAI se transformó de una organización sin fines de lucro a una organización con fines de lucro "limitada", con un límite de ganancias de 100 veces cualquier inversión.

Veamos por qué ChatGPT es efectivo. El primero es el valor del ajuste fino de las instrucciones, no inyectará nuevas capacidades en el modelo, es decir, cómo la calidad del modelo determina directamente el resultado de ChatGPT, y el segundo punto es que se diferenciará en diferentes habilidades. árboles, como el aprendizaje contextual, el diálogo, etc. Entonces, la capacidad de responder a los comandos humanos también es un producto del ajuste fino del comando. Además, la trazabilidad del modelo, incluida la capacidad de generación de lenguaje, el conocimiento básico del mundo y el aprendizaje del contexto, todo proviene del modelo preentrenado.  Además, la capacidad de seguir instrucciones y generalizar a nuevas tareas proviene de la expansión del número de instrucciones en el aprendizaje de instrucciones.Además, es probable que la capacidad del modelo para realizar un razonamiento complejo provenga del entrenamiento del código.

¿Por qué no Chat-BERT? Este tipo de AE ​​(Auto Encoder) de BERT coopera con la tarea de pre-entrenamiento de Mask LM. Aunque puede ver mejor lo de arriba y lo de abajo, también hay una brecha entre entrenar e inferir, porque el AR la arquitectura es muy Se ajusta al proceso de pensamiento y respuesta humanos, se ajusta al "primer principio" y puede responder muchas preguntas.

InstructGPT ha traído algunos beneficios, en primer lugar, su efecto será más realista, luego se mejorará su inocuidad y tiene una capacidad de codificación muy poderosa. Por supuesto, también hay algunas desventajas. Primero, reducirá el efecto del modelo en las tareas generales de PNL. Segundo, dará un resultado absurdo, porque la tarea del modelo de lenguaje supervisado que afecta más el efecto del modelo, los humanos solo juegan una función correctiva. , por lo que es probable que esté limitado por los datos de corrección limitados, lo que da como resultado un contenido generado falso. La tercera es que es muy sensible a los indicadores, esto se debe principalmente a la cantidad insuficiente de datos etiquetados por el etiquetador. El cuarto es una sobreinterpretación de conceptos simples, probablemente porque el etiquetador tiende a otorgar mayores recompensas al contenido de salida más largo al comparar el contenido generado. El último punto es que las instrucciones dañinas pueden generar respuestas dañinas.

Hay tres direcciones principales para la mejora posterior de Chat-GPT: primero, la reducción de costos y el aumento de la eficiencia de la anotación manual, cómo permitir que los humanos proporcionen métodos de retroalimentación más efectivos y la combinación orgánica e ingeniosa del desempeño humano y el desempeño del modelo. muy importante. El segundo punto es la capacidad del modelo para generalizar y corregir instrucciones. Cómo mejorar la capacidad de generalización del modelo y la capacidad de corregir instrucciones erróneas es una tarea muy importante para mejorar la experiencia del modelo. El tercer punto es evitar la degradación del rendimiento de las tareas generales Aquí puede ser necesario diseñar una forma más razonable de utilizar la retroalimentación humana, o una estructura de modelo más avanzada.

De hecho, aparte de los problemas mencionados hace un momento, lo que más me insatisfecha ahora es la puntualidad y la precisión, lo que lleva directamente a la tontería. Bing salió y resolvió este problema hasta cierto punto. ¿Cómo lo resuelve? El primer punto es que integrará la búsqueda de Bing, agregará todas las respuestas relevantes y hará un resumen y clasificación; el segundo método es resolver la puntualidad y buscar rápidamente las preguntas publicadas actualmente.

2.3 Implementación, análisis, detección y proyectos de código abierto relacionados con aplicaciones de ChatGPT

Primero, un marco de implementación de bajo costo es ColossIAI, que propone un proceso de implementación equivalente a ChatGPT de código abierto y bajo costo, que proporciona un código de capacitación de ChatGPT listo para usar. La dirección está en https://github.com/hpcaitech/ColossalAI. También incluye la implementación de código abierto de RLHF, para sentir cómo y qué se debe marcar en los datos. También está PaLM-rlhf-pytorch, que implementa RLHF (aprendizaje de refuerzo de retroalimentación humana) sobre la arquitectura PaLM, básicamente equivalente a ChatGPT, la diferencia es el uso de PaLM, dirección del proyecto: https://github.com /lucidrains/ PaLM-rlhf-pytorch.

También hay un proyecto de detección de comparación de ChatGPT. Al recopilar decenas de miles de datos comparativos de preguntas y respuestas de expertos humanos y ChatGPT, el corpus comparativo HumanChatGPT estudia las características de las respuestas de ChatGPT, así como las diferencias y la brecha, y se proporciona el detector ChatGPT, la dirección del proyecto está en la dirección del proyecto: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection. Luego hubo algunos descubrimientos sorprendentes: primero, las respuestas de ChatGPT generalmente se enfocaban estrictamente en las preguntas dadas, mientras que las respuestas artificiales eran divergentes y fácilmente cambiaban a otros temas. En segundo lugar, ChatGPT brinda respuestas objetivas, mientras que los humanos prefieren las expresiones subjetivas. En tercer lugar, las respuestas de ChatGPT suelen ser formales, mientras que las respuestas humanas son más coloquiales. A los humanos también les encanta usar el humor, el sarcasmo, las metáforas y los ejemplos, mientras que ChatGPT nunca usa la ironía. Finalmente, ChatGPT expresa menos emoción en sus respuestas, mientras que los humanos seleccionan muchas características gramaticales y de puntuación en contexto para transmitir sus sentimientos.

También hay algunos proyectos de código abierto orientados a aplicaciones que realizan directamente algunas tareas de NLP. El primero es unlocking-the-power-of-llms, la dirección del proyecto es https://github.com/howl-anderson/unlocking-the-power-of-llms. Este proyecto implica principalmente la operación de mejora de datos de la expansión del corpus, y también puede realizar la limpieza del corpus, corregir errores de datos y dar instrucciones para cada corrección. También hay algunos proyectos de aplicaciones de avisos. Debido a la misma tarea, diferentes avisos traerán diferentes efectos, por lo que es muy importante saber cómo encontrar un aviso para una tarea específica. La dirección del proyecto está en la dirección del proyecto: https://github. com/f/awesome-chatgpt-prompts. Hay algunos otros proyectos de código abierto del lado de la aplicación, como se muestra en la Figura 5.

Figura 5 Otros proyectos de código abierto relacionados con la aplicación

3. La dirección de relación y combinación de ChatGPT, NLP y KG

3.1 ChatGPT y NLP: descripción básica de los modelos de preentrenamiento

El modelo de preentrenamiento es en realidad un concepto derivado del aprendizaje por transferencia. Utiliza modelos grandes y una gran potencia informática para utilizar datos no etiquetados o débilmente etiquetados. También tiene la capacidad de aprender con pocas muestras y cero muestras, y también puede realizar múltiples -interacción modal. La arquitectura del lenguaje de NLP se muestra en la Figura 6.

Figura 6 Arquitectura del procesamiento del lenguaje natural de la PNL

El modelo de lenguaje preentrenado se basa en datos no etiquetados a gran escala. El aprendizaje automático del modelo de lenguaje general es fuerte en la generalización y se puede usar para una variedad de tareas posteriores. El aprendizaje de transferencia utiliza el "pre-entrenamiento-ajuste fino". "marco para lograr" adquisición de conocimientos-transferencia de conocimientos, incluida la función Hay dos tipos de migración de representación y migración de parámetros, y luego incluye aprendizaje autosupervisado de imágenes. 

El modelo de lenguaje en sí mismo resuelve el problema de la representación del lenguaje. Al principio, se usa one-hot para la representación, y luego el modelo grande se usa para reemplazar la capa de codificación de características intermedia para hacer una representación distribuida, y luego para realizar algunas tareas posteriores. La evolución se muestra en la Figura 7. Se muestra.

Figura 7 Evolución de la representación del lenguaje para el procesamiento del lenguaje natural

El núcleo del modelo de lenguaje es la maximización de la probabilidad total, es decir, la probabilidad de estimar la generación de la siguiente palabra en el texto. Pero hay un gran problema, la cantidad de exceso es grande y el contexto es particularmente grande, y habrá un estado no adquirido, así que me pregunto si puedo usar el modelo para aprender el modelo de contexto. Al principio se basó en la representación simbólica, luego empezó a hacer modelos estadísticos de lenguaje, al descomponer el texto matriz podemos obtener el modelo de bolsa de palabras para hacerlo. La incrustación se usa más tarde, y un vector denso, continuo y de baja dimensión se usa directamente para representar palabras. Otro es el modelo NNLM, que puede generar algunos modelos modelando modelos de lenguaje. ELMO puede obtener una solución al problema de los vectores de palabras dinámicos, entrenar el modelo de lenguaje directo y el modelo de lenguaje inverso respectivamente, y resolver la forma de polisemia de una palabra.

En la actualidad, el modelo de lenguaje preentrenado se ha convertido en un nuevo paradigma para el procesamiento de NLP Primero, construya algunas tareas de bandera y luego use los datos de la bandera como contraste. El ajuste de avisos es popular actualmente y puede elegir diferentes avisos para diferentes tareas.

Para resolver el problema de la unificación de PNL hasta cierto punto, pero hay un gran problema en la construcción de la plantilla.La estructura de la plantilla es diferente y los resultados generados serán diferentes.El núcleo del modelo de lenguaje preentrenado es el tarea de aprendizaje autosupervisado.

3.2 ChatGPT y KG: un modelo de lenguaje preentrenado que integra grafos de conocimiento

Gráfico de conocimiento: una base de conocimiento basada en relaciones binarias, utilizada para describir entidades o conceptos en el mundo real y sus relaciones, la unidad básica es el triplete [entidad-relación-entidad]. Fundamentalmente hablando, el mapa de conocimiento es esencialmente un método de representación de conocimiento, que define la ontología de dominio para realizar la estructura de conocimiento (concepto, atributo de entidad, relación de entidad, atributo de evento y relación entre eventos) de un determinado dominio comercial. es una representación canónica del conocimiento en un campo específico. La comparación entre el conocimiento de la entidad y el gráfico de conocimiento del evento es la siguiente:

Figura 8 Comparación de gráficos de conocimiento de entidad y conocimiento de evento

¿Cuáles son las diferencias y combinaciones entre el gráfico de conocimiento y ChatGPT? La diferencia es que no son una relación de reemplazo, sino una relación paralela. La esencia es que el gráfico de conocimiento es una representación formal del conocimiento, y ChatGPT es un modelo de lenguaje, que en sí mismo es conocimiento parametrizado. La ventaja de KG es que es explicable, de hecho, también se puede usar más adelante para explicar por qué ChatGPT es efectivo. El punto de combinación primero incluye el intercambio de razonamiento, seguido del mapeo de varias tareas gráficas y la realización del aprendizaje profundo.

La otra es que el cálculo de datos es relativamente bueno y existen algunos desafíos en el razonamiento, por lo que los gráficos de conocimiento se utilizan actualmente para resolver problemas de razonamiento. Por lo general, el conocimiento estructurado es difícil de construir, pero fácil de razonar, y el conocimiento no estructurado es fácil de construir (simplemente guárdelo directamente), pero es difícil de usar para razonar. Sin embargo, los modelos de lenguaje brindan una nueva forma de extraer fácilmente el conocimiento de un texto no estructurado y razonar de manera eficiente sobre él sin necesidad de esquemas predefinidos.

Otra es la capacidad del sistema para integrar conocimiento externo. Puede tomar mucha energía resolver fundamentalmente las deficiencias de ChatGPT. Es mejor combinarlo con su propio motor de conocimiento Wolfram|Alpha, porque este último tiene una estructura poderosa. Poder de cómputo computarizado. , sino también entender el lenguaje natural.

La integración de gráficos de conocimiento en ChatGPT se puede lograr de muchas maneras. Déle suficiente conocimiento correcto y luego introduzca tecnologías de administración de conocimiento e inyección de información, como gráficos de conocimiento, y también limite su rango de datos y escenarios de aplicación para hacer que el contenido que genera sea más confiable.

En primer lugar, hay una representación incrustada del gráfico de conocimiento. Las entidades y las relaciones en el gráfico de conocimiento pueden representarse como vectores incrustados, que pueden incorporarse al modelo como características adicionales para mejorar el rendimiento del modelo. El segundo es la comprensión del contexto basada en el gráfico de conocimiento, que puede ayudar al modelo a comprender el contexto de la conversación y proporcionar información más precisa para responder preguntas. También existe la generación automática de preguntas basada en gráficos de conocimiento. Al combinar la información de los gráficos de conocimiento, las preguntas se pueden generar automáticamente para ayudar a los usuarios a comprender mejor la semántica y el contexto entre las entidades y las relaciones. En la actualidad, el modelo de lenguaje pre-entrenado que integra principalmente conocimientos se muestra en la Figura 9.

Figura 9 Modelo de lenguaje preentrenado con fusión de conocimientos

4. La posibilidad y perspectiva de aplicación de ChatGPT

ChatGPT tiene la capacidad de continuar múltiples rondas de diálogo y admite múltiples tareas. La implementación de la aplicación depende primero de la empresa. El modelo comercial de openAI consiste en cuotas de membresía, API abiertas y cooperación estratégica con Microsoft.

ChatGPT en sí mismo es un modelo de pre-entrenamiento, que puede aprender de algunos modelos de implementación del pre-modelo actual.El año pasado, el Instituto de Investigación de Inteligencia Artificial publicó un informe, dividiendo la implementación de la industria inteligente a gran escala en tres partes Uno es el upstream, que incluye principalmente algo de formación de bajo nivel Arquitectura, un midstream, que incluye investigación y desarrollo tecnológico, gestión y desarrollo de operaciones y mantenimiento, y un downstream, que se centra en la mejora de modelos a gran escala.

Otro modo de aterrizaje es el código abierto, que se puede realizar mediante registro o membresía. El tercero es el modelo PaaS, que integra algún software específico.

Una vez implementada la aplicación, la distribución específica de lo que los usuarios quieren hacer se muestra en la Figura 10.

Figura 10 Funciones y frecuencia de uso de los usuarios

Por supuesto, algunas empresas quieren integrarse en el documento, para responder correos electrónicos, hacer cotizaciones, etc. Luego, también puede combinar con los motores de búsqueda, responder algunas consultas de búsqueda a través de ChatGPT y mejorar la eficiencia de los motores de búsqueda de manera innovadora.

También los hay de aprendizaje, buscando artículos publicados, encontrando los resúmenes más relevantes de una gran cantidad de trabajos de investigación y pudiendo hacer correcciones gramaticales; también están los creativos, que son los temas más populares en Google al buscar contenido de palabras clave, generar contenido basado en los datos adquiridos para obtener un mayor volumen de lectura, y también puede realizar escritura automática AI.

En la categoría de entretenimiento, la IA puede generar historias automáticamente, brindar comentarios sobre eventos y experiencias de juego completamente nuevos, y poder tener diálogos con los usuarios. En la categoría de vida, existen asistentes fiscales, que pueden utilizar diferentes modelos para extraer información de texto y clasificar tipos de transacciones.

Actualmente, los productos que compiten con ChatGPT se muestran en la Figura 11. Por supuesto, esto también promueve el desarrollo de ChatGPT.

Figura 11 Productos de la competencia de ChatGPT

Supongo que te gusta

Origin blog.csdn.net/soaring_casia/article/details/130107737
Recomendado
Clasificación