Manual de Speed Run de ChatGPT - Introducción al conjunto de datos de entrenamiento de GPT

Introducción al conjunto de datos de entrenamiento de GPT

Todos los algoritmos de inteligencia artificial se dividen en dos pasos: entrenamiento y razonamiento. El efecto del algoritmo depende en gran medida de la calidad de los propios datos de entrenamiento. Los datos de entrenamiento utilizados por ChatGPT, la empresa openai no ha anunciado los detalles por separado. Sin embargo, teniendo en cuenta que ChatGPT se desarrolla sobre la base del algoritmo GPT de pedido anticipado, podemos analizar el conjunto de datos de entrenamiento de GPT-3 desde un lado.

El Dr. Alan D. Thompson, una figura muy conocida en el campo de la inteligencia artificial, publicó un artículo que presenta los conjuntos de datos que actualmente se usan comúnmente en el campo de los grandes modelos de lenguaje. De acuerdo con los datos del token divulgados en el documento de openai, se especula que el tamaño del conjunto de datos de entrenamiento utilizado por GPT-3 es de 753,4 GB. La distribución específica es la siguiente:

  • Wikipedia: 11,4 GB. Wikipedia es la enciclopedia en línea gratuita, multilingüe y líder en el mundo con más de 300.000 voluntarios contribuyendo con contenido. La versión en inglés generalmente está involucrada en la capacitación, incluidos 6,62 millones de artículos y más de 4,2 mil millones de palabras. Entre ellos, la biografía representó el 27,8%, la geografía el 17,7%, la cultura y el arte el 15,8%, la historia el 9,9%, la biomedicina el 7,8%, los deportes el 6,5%, los negocios el 4,8%, la ciencia y la ingeniería y las matemáticas representaron el 3,5% %.
  • Libro de Gutenberg: 21 GB. Gutenberg Book Corpus, un proyecto creado por el inventor de libros electrónicos Michael Hart, es el primer sitio web gratuito de libros electrónicos del mundo. El sitio web recopila libros en varios idiomas, hay más de 50 libros en 12 idiomas y 500 libros en chino, pero básicamente son libros antiguos. Generalmente se utiliza para el entrenamiento una versión seleccionada de SPGC en el corpus. Debido a que es un sitio en línea, podemos ver directamente la lista de los 100 mejores libros ordenados por día. Por ejemplo, el 10 de marzo de 2023, "Romeo y Julieta" de Shakespeare ocupó el primer lugar, y el único libro chino entre los 100 principales fue, coincidentemente, "El pabellón de las peonías" de Tang Xianzu, que ocupó el puesto 88.
  • Bibliotik Journey: 101 GB. Bib es el sitio de libros electrónicos más grande de Internet, se distribuye y descarga a través de P2P y el número de semillas supera las 500.000. Para entrenar el modelo grande GPT-Neo en 2021, EleutherAI Lab integró y seleccionó este conjunto de datos de libros electrónicos, que representa el 12,07 % de todos los datos en el conjunto de datos de Pile finalmente utilizados por EleutherAI Lab.
  • Enlaces Reddit: 50 GB. Reddit es una popular plataforma de redes sociales, y el conjunto de datos de WebText rastrea todas las páginas web con más de tres enlaces salientes desde la plataforma Reddit, lo que representa la gama de contenido popular.
  • Rastreo común: 570 GB. Este es un conjunto de datos que se ha estado rastreando desde 2011, incluidas las páginas web originales, los metadatos y el texto extraído, almacenado en AWS, con un total de más de 1 PB, y continúa aumentando a un ritmo de 20 TB por mes. Generalmente se usa para el entrenamiento solo la parte C4 de Common Crawl. Desde la perspectiva del análisis de datos, a excepción del sitio web de patentes de Google, que representa una alta proporción del 0,48 %, la proporción de otros sitios web de origen es relativamente promedio, manteniéndose por debajo del 0,04 %.

En las propias estadísticas de datos de capacitación pública de openai por idioma ( https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv ), la proporción de palabras en inglés en el conjunto de datos de capacitación es tan alta como 92 % Además, el francés representó el 1,81 %, el alemán el 1,47 %, otros idiomas menos del 1 % y el chino el 0,1 %. Pero la capacidad real de preguntas y respuestas de ChatGPT en varios idiomas supera con creces las propias expectativas de openai. Los lenguajes humanos pueden comunicarse hasta cierto punto más allá de la comprensión humana.

También hay otras noticias de que el tamaño del corpus de entrenamiento de GPT-3 es de hasta 45 TB. La brecha entre los dos datos es demasiado grande. Es posible que 45 TB sea la suma del tamaño total de las fuentes de datos anteriores antes de la selección.

¿Hasta qué punto estos conjuntos de datos pueden representar todo Internet? El sitio web www.worldwidewebsize.com ha rastreado durante mucho tiempo el número total de páginas web en Internet que se pueden recuperar en motores de búsqueda como Google y Bing. Hasta ahora, el número total de páginas web indexadas es de 5.850 millones. Hay otra pista a largo plazo del tamaño HTML de las páginas web, y el tamaño medio de las páginas web de Internet es actualmente de 1,2 MB. Se estima que el tamaño de texto de todo Internet es de 7000 TB. Después de eliminar todo tipo de etiquetas HTML y eliminar aproximadamente el contenido de cola larga similar de acuerdo con la regla 80/20, podemos creer arbitrariamente que el texto en todo Internet tendrá un tamaño de aproximadamente 1000 TB. Pero usar directamente estos datos de 1000 TB para entrenar el diálogo de IA puede no ser la mejor solución. Hace muchos años, Microsoft Xiaoice "aprendió" que el accidente de jurar es una prueba clara.

Además, debido a que la capacidad de cadena de pensamiento de ChatGPT necesita ejercitar deliberadamente la capacidad lógica, los datos de entrenamiento también pueden incluir conjuntos de datos de código de GitHub, conjuntos de datos de preguntas y respuestas de programación de StackExchange, etc.

Podemos ver que los datos de entrenamiento actuales de ChatGPT provienen básicamente del mundo de Internet inglés, y falta la comprensión de los datos de Internet chinos. Esta es también una oportunidad para los gigantes de Internet de China. Sin embargo, de hecho, hay una falta de conjuntos de datos abiertos y estandarizados de esta magnitud en la Internet china. Puede que ni siquiera haya un formulario correspondiente. Por ejemplo: casi no hay plataformas de redes sociales como reddit y hackernews en China que se centren principalmente en enlaces salientes y comentarios de preguntas y respuestas. Casi todos los corpus chinos existentes provienen de las principales universidades e instituciones de investigación científica, como la BBC de la Universidad de Lengua y Cultura de Beijing, OpenSLR de la Universidad de Tsinghua, CCL de la Universidad de Pekín, NEPD de la Universidad Agrícola de Nanjing, WuDaoCorpora del Instituto de Investigación de Zhiyuan, etc. Cuando la Universidad de Fudan lanzó el robot de diálogo de inteligencia artificial MOSS, admitió que usaba el corpus estándar del mundo de Internet en inglés sin ningún dato chino especial.

Es difícil para las instituciones de investigación científica mantener un conjunto de datos actualizado en tiempo real durante mucho tiempo, por lo que este aspecto depende de los esfuerzos de las propias empresas chinas de Internet, como: Baidu Encyclopedia, Zhihu Q&A para proporcionar contenido preferido, Jingdong, Dangdang Distribución gratuita de libros electrónicos, publicación gratuita de publicaciones periódicas y revistas de HowNet, apertura de enlaces salientes en WeChat Moments, integración de listas de búsqueda y comentarios de Weibo, etc. Por otro lado, también se considera la exploración del nivel de supervisión. Yao Qian, director de la Oficina de Supervisión de Ciencia y Tecnología de la Comisión Reguladora de Valores de China, publicó recientemente un artículo firmado "Custodia y gobernanza de los datos de capacitación de modelos grandes de ChatGPT" en la sexta edición de "China Finance" en 2023, proponiendo apoderarse de la "nariz de toro" de datos de alta calidad. Para el suministro de datos de alta calidad, "la autosuficiencia y la apertura deben considerarse como un todo. Se puede considerar establecer sitios espejo domésticos filtrados para fuentes de datos específicas como Wikipedia y Reddit para uso de procesadores de datos domésticos".

Supongo que te gusta

Origin blog.csdn.net/shiyunzhe2021/article/details/130176785
Recomendado
Clasificación