Pregunta a ChatGPT sobre GPT: preparación de datos

1. Si eres ingeniero de inteligencia artificial y tienes un modelo GPT grande de 65B, pero necesitas un modelo pequeño de aproximadamente 6B, ¿qué harás?

Respuesta: Como ingeniero de inteligencia artificial, si tengo un modelo GPT grande de 65B y necesito un modelo pequeño de aproximadamente 6B, seguiré los siguientes pasos:

Selección de subconjunto de datos: para el conjunto de datos utilizado para entrenar un modelo grande, seleccionaría un subconjunto para usarlo al construir un modelo pequeño. Este subconjunto debe conservar suficiente diversidad y representatividad para garantizar que los modelos pequeños sigan funcionando bien en una variedad de tareas.

Poda de parámetros: utilizaré técnicas de poda para reducir la cantidad de parámetros en modelos grandes. La poda puede reducir el tamaño del modelo eliminando conexiones y neuronas sin importancia. Esto se puede lograr mediante técnicas como análisis de sensibilidad, poda estructurada, entrenamiento escaso, etc.

Ajuste fino: después de la poda, afino el modelo pequeño para optimizar aún más sus parámetros y al mismo tiempo preservar el rendimiento tanto como sea posible. El ajuste fino puede utilizar una tasa de aprendizaje menor y menos iteraciones para evitar el sobreajuste.

Compresión del modelo: si el tamaño del modelo pequeño es aún mayor que los 6B requeridos, podría considerar usar técnicas de compresión de modelos. Esto incluye cuantificación de peso, intercambio de parámetros, descomposición de rango bajo y otros métodos para reducir la huella de memoria del modelo.

Mediante los pasos anteriores, puedo convertir el modelo grande GPT de 65B original en un modelo pequeño de aproximadamente 6B.

Solo menciona poda, pero es imposible podar al 90%, intentaré guiarlo para responder a la solución óptima.

2. ¿Qué tipo de datos debe contener el subconjunto de datos que elija?

Para seleccionar un subconjunto de datos, el tipo y el contenido de los datos incluidos se pueden determinar en función de las tareas y necesidades específicas. En términos generales, los subconjuntos de datos deben contener los siguientes tipos de datos:

Datos de destino: seleccione datos de destino relacionados con el problema o tarea que se está resolviendo. Por ejemplo, si se realiza un análisis de opinión, el subconjunto de datos debe contener datos de texto con etiquetas de opinión.

Datos diversos: asegúrese de que el subconjunto de datos sea diverso y contenga muestras de datos de diferentes campos, tipos y longitudes. Esto puede mejorar la capacidad de generalización y la adaptabilidad del modelo.

Datos equilibrados: en el subconjunto de datos, intente mantener el equilibrio de cada categoría o etiqueta para evitar demasiadas o muy pocas muestras en una determinada categoría, a fin de no provocar sesgos o inexactitudes en el modelo.

Datos de alta calidad: seleccione muestras de datos de alta calidad para garantizar la precisión, integridad y confiabilidad de los datos. La calidad de los datos se puede garantizar mediante fuentes de datos profesionales y procesos de anotación estandarizados.

Aquí, por supuesto, sé que texto largo + texto breve + noticias + artículos/enciclopedia pueden cubrir todo, pero no responde directamente y necesita orientación.

3. Supongamos que solo puede rastrear todos los datos en cuatro sitios web. ¿Cómo elegiría los sitios web para preparar los datos previos al entrenamiento de GPT?

Para preparar los datos previos al entrenamiento para GPT, elegiré los siguientes cuatro sitios web para rastrear todos los datos:

Wikipedia: como rica base de conocimientos, Wikipedia contiene una gran cantidad de artículos e información que pueden proporcionar una amplia gama de conocimientos de dominio y expresión lingüística.

Reddit: como foro social, hay publicaciones de discusión y comentarios sobre diversos temas en Reddit, que pueden proporcionar contenido de conversación rico y diverso en tiempo real.

Stack Exchange: como comunidad de preguntas y respuestas, Stack Exchange tiene una gran cantidad de preguntas y respuestas en campos profesionales, que pueden proporcionar conocimientos profesionales y debates relacionados.

Sitios web de noticias: elija un sitio web de noticias, como BBC, CNN o New York Times, para obtener una variedad de informes de noticias y comentarios que cubren diversos temas y eventos en todo el mundo.

Dicha selección puede proporcionar una amplia gama de temas, estilos de lenguaje y conocimientos de dominio, brindando diversidad y versatilidad para la capacitación previa de GPT.

Es exactamente lo que esperaba aquí: los sitios de noticias proporcionan textos largos, Reddit proporciona conversaciones, SE proporciona preguntas y respuestas abiertas, es decir, instrucciones para ajustar los datos, y WIKI proporciona conocimientos.

4. Echemos un vistazo a la versión china:

Para preparar los datos previos al entrenamiento de GPT, elegiré los siguientes cuatro sitios web chinos:

Enciclopedia Baidu (https://baike.baidu.com): como el sitio web de enciclopedia china más grande, la Enciclopedia Baidu cubre una amplia gama de temas y campos. Los artículos son ricos y variados, proporcionando una rica muestra de conocimientos y lenguaje.

Sina News (https://news.sina.com.＊＊＊El entretenimiento y otros campos pueden proporcionar una gran cantidad de información en tiempo real y muestras de idiomas.

Zhihu (https://www.zhihu.com): Zhihu es una comunidad de preguntas y respuestas de conocimiento donde los usuarios preguntan, responden y comparten diversos temas en la plataforma. Existe un gran grupo de usuarios con profundidad y experiencia, y sus respuestas y debates proporcionan una muestra diversa de lenguaje.

Douban Reading (https://book.douban.com): Douban Reading es una plataforma social y de recomendación de libros donde los usuarios pueden publicar reseñas, calificaciones, comentarios y debates sobre libros. Estas reseñas y debates cubren una variedad de géneros de libros, desde novelas hasta trabajos académicos, proporcionando una muestra diversa del lenguaje.

Estos cuatro sitios web cubren conocimientos e información en diferentes campos y pueden proporcionar datos de texto en chino enriquecidos, lo que ayuda a entrenar un modelo GPT más completo y diverso.

La enciclopedia proporciona conocimiento, las noticias proporcionan textos extensos, Zhihu proporciona preguntas y respuestas abiertas y Douban Reading proporciona diálogo si se trata de un grupo.

Cinco: ¿Puedo utilizar textos novedosos como Biquge en lugar de Sina News para proporcionar datos de entrenamiento de textos largos para GPT?

Puede utilizar textos novedosos como Biquge como datos de entrenamiento para GPT, pero debe prestar atención a los siguientes puntos:

Cuestiones de derechos de autor: asegúrese de tener autorización o permiso legal para utilizar estos textos novedosos como datos de capacitación. Es muy importante respetar los derechos de los autores.

Calidad del texto: Existen diferencias significativas en contenido y estilo entre los textos de ficción y los textos periodísticos. La ficción suele ser más ficticia e imaginativa, mientras que el periodismo se basa más en hechos y es objetivo. Por lo tanto, el uso de texto novedoso como datos de entrenamiento puede afectar la precisión y confiabilidad de GPT al generar texto de noticias.

Diversidad de datos: para que GPT tenga mejores capacidades de generalización, se recomienda utilizar datos de entrenamiento diversos. Una única fuente de datos puede hacer que el modelo se ajuste demasiado a un dominio o estilo específico.

Tal como esperaba, es factible.

6. El sitio web que recomienda no contiene conjuntos de datos de diálogos de múltiples turnos en chino. Enumere varios sitios web que contienen diálogos de múltiples turnos en chino.

Para el conjunto de datos de conversaciones de varios turnos en chino, estos son algunos de los sitios web incluidos:

THU Chat Corpus: un conjunto de datos de conversaciones en chino de múltiples rondas proporcionado por la Universidad de Tsinghua, que incluye datos de conversaciones de Weibo, foros y otros campos.

DuConv: conjunto de datos de diálogo chino abierto de múltiples rondas de Baidu, que incluye principalmente dos tipos de preguntas y respuestas de conocimiento y diálogo de chat.

ECDT: un conjunto de datos de diálogo chino de múltiples rondas proporcionado por el Instituto de Tecnología de Harbin, que cubre escenarios de diálogo reales en diferentes campos.

7. Determine si los siguientes sitios web contienen conversaciones en chino de varios turnos: Baidu Tieba, Sina Weibo, Douban Group

El siguiente es el juicio de los tres sitios web:

Baidu Tieba: Baidu Tieba es un sitio web de la comunidad china. Los usuarios pueden mantener conversaciones de varios turnos en chino en cada barra de publicaciones, por lo que contiene conversaciones de varios turnos en chino.

Sina Weibo: Sina Weibo es una plataforma de redes sociales china donde los usuarios pueden publicar publicaciones en Weibo y comentar e interactuar con otros usuarios, incluyendo así también conversaciones de varios turnos en chino.

Douban Group: Douban Group es un sitio web comunitario chino donde los usuarios pueden discutir e interactuar en grupos, por lo que también incluye conversaciones chinas de varios turnos.

Esto es lo mismo que el desempeño humano: si le preguntas directamente sin limitar el rango, no pensará en ello, pero si le das un rango y le dejas juzgar, puede juzgarlo.

8. ¿Cuáles son las etapas del entrenamiento del modelo GPT? ¿Qué tipo de conjuntos de datos se utilizan en cada una de estas etapas?

El entrenamiento del modelo GPT se divide en dos etapas: entrenamiento previo y ajuste fino.

En la etapa previa al entrenamiento, el modelo GPT utiliza un conjunto de datos de texto no supervisado a gran escala. Normalmente, este conjunto de datos se recopila de diversas fuentes en Internet, como Wikipedia, artículos de noticias, publicaciones en foros, etc. El objetivo del entrenamiento previo es permitir que el modelo aprenda a predecir la probabilidad de que aparezca la siguiente palabra y, a través de esta tarea, aprenda las reglas estadísticas y la información semántica del lenguaje.

En la fase de ajuste, el modelo GPT utiliza un conjunto de datos específico para la tarea supervisada. Este conjunto de datos suele estar anotado manualmente y contiene entradas y salidas objetivo correspondientes. Por ejemplo, en la tarea de generar diálogos, el conjunto de datos puede consistir en el texto del diálogo y las respuestas correspondientes. El objetivo del ajuste es hacer que el modelo funcione mejor en una tarea específica y ajustar aún más los parámetros del modelo mediante el aprendizaje supervisado.

Sí, pero el ajuste es mucho más complicado que el entrenamiento previo. Es necesario ampliar la descripción a continuación.

9. Darle un modelo de generación de lenguaje que pueda generar el siguiente texto basado en un texto ¿Cómo convertirlo en un modelo de diálogo?

Para transformar un modelo de generación de lenguaje en un modelo de diálogo, se puede introducir un entorno contextual. Los modelos de generación de lenguaje tradicionales generan el siguiente fragmento de texto basándose en el texto anterior, mientras que el modelo de diálogo puede generar el siguiente fragmento de diálogo basándose en el historial de diálogo anterior. Podemos hacer esto tomando el historial de conversaciones como parte de la entrada del modelo y entrenando el modelo para generar la siguiente conversación.

Específicamente, el historial de conversaciones se puede dividir en un texto largo, agregando algunas etiquetas especiales para separar el historial de conversaciones y el texto de la respuesta actual. De esta manera, el modelo puede generar respuestas basadas en toda la secuencia de texto.

En el momento del entrenamiento, debemos proporcionar pares de muestra que contengan el historial de conversaciones y las respuestas que se espera que genere el modelo. El modelo aprende a generar respuestas apropiadas basadas en el historial de conversaciones.

10. Ahora que tiene un modelo que puede realizar generación de lenguaje y múltiples rondas de diálogo, ¿cómo puede lograr que realice múltiples tareas de lenguaje natural, como planificación, resumen de texto y traducción?

Para estas tareas de lenguaje natural, los modelos se pueden entrenar con ejemplos guiados de tareas específicas. Por ejemplo, para tareas de planificación, se pueden proporcionar algunas preguntas de ejemplo sobre planificación y las respuestas correspondientes para que el modelo aprenda a generar sugerencias de planificación adecuadas. Para la tarea de resumir texto, se pueden proporcionar algunos párrafos de texto y resúmenes correspondientes para que el modelo aprenda la capacidad de resumir el texto. Para las tareas de traducción, se pueden proporcionar algunas oraciones bilingües para permitir que el modelo aprenda a traducir un idioma a otro.

Durante el proceso de capacitación, puede utilizar un método llamado "preentrenamiento no supervisado", que primero permite que el modelo aprenda los patrones y estructuras generales del lenguaje por sí solo y luego utiliza tareas supervisadas para ajustar aún más el modelo. Hacerlo puede mejorar el rendimiento del modelo en una variedad de tareas de lenguaje natural.

La respuesta correcta es agregar palabras clave para convertirlas en tareas conversacionales.

11. ¿Cuál es la función de las palabras clave?

Las palabras rápidas sirven como guías y recordatorios en las conversaciones. Pueden ayudar a los participantes de la conversación a comprender mejor el significado de la pregunta y proporcionar respuestas más precisas. Las palabras clave pueden ser frases o palabras clave específicas, o pueden ser una oración descriptiva, que puede ayudar a definir el tema y el alcance de la conversación.

Por ejemplo, cuando ingresa una palabra clave en un motor de búsqueda, las palabras emergentes completarán automáticamente el contenido de la búsqueda y brindarán sugerencias relacionadas con la palabra clave. En una conversación, las palabras rápidas pueden guiar al interlocutor a brindar información más específica o relevante para satisfacer las necesidades de la otra parte.

Este sigue siendo el caso, tengo que decirle la respuesta correcta.

Resumir

ChatGPT tiene un fenómeno muy frustrante, es decir, si haces una pregunta, no puede dar una respuesta, pero si le das una respuesta, puede inferir la pregunta.

Por ejemplo, si pregunta [cuál es el papel de las palabras clave], obviamente la idea de una persona normal es decirle al modelo el tipo de tarea que necesita o, desde la perspectiva de un ingeniero, convertir cualquier tarea de lenguaje natural en una tarea de diálogo, y unificar modelado y procesamiento. Pero si le preguntas directamente [tienes un modelo de diálogo de múltiples turnos, cómo hacer que realice varias tareas de lenguaje natural], no pensará en palabras clave en absoluto.