Resumen del modelo grande (LLM)

Los modelos grandes (Large Language Models, LLM) son una de las direcciones más importantes en la investigación y la industria actual de IA y NLP.

Este artículo resumirá los principales modelos actuales a gran escala. (*Actualizado el 19.03.2023)

En este documento, el modelo con un tamaño de parámetro superior a 1B se considera un modelo grande.

Lista de modelos

Modelo autor Tamaño tipo ¿Fuente abierta?
Llama Meta IA 7B-65B Descifrador abierto
OPTAR Meta IA 125M-175B Descifrador abierto
T5 Google 220M-11B Codificador-Decodificador abierto
mT5 Google 235M-13B Codificador-Decodificador abierto
UL2 Google 20B Codificador-Decodificador abierto
Palmera Google 540B Descifrador No
LaMDA Google 2B-137B Descifrador No
FLAN-T5 Google Igual que T5 Codificador-Decodificador abierto
FLAN-UL2 Google Igual que U2 Codificador-Decodificador abierto
FLAN-PALMA Google Igual que PaLM Descifrador No
FLAN Google 同LaMDA Descifrador No
FLORACIÓN gran ciencia 176B Descifrador abierto
T0 gran ciencia 3B Descifrador abierto
BLOOMZ gran ciencia Misma FLORACIÓN Descifrador abierto
mT0 gran ciencia Igual que T0 Descifrador abierto
GPT-Neo EleutherAI 125M-2.7B Descifrador abierto
GPT-NeoX EleutherAI 20B Descifrador abierto
GPT3 IA abierta 175B (davinci) Descifrador No
GPT4 IA abierta desconocido IA abierta No
InstruirGPT IA abierta 1.3B Descifrador No
Alpaca Stanford 同LlaMa Descifrador abierto

IA Meta/Facebook

  • LLaMA: Modelos Lingüísticos Fundamentos Abiertos y Eficientes

https://arxiv.org/pdf/2302.13971v1.pdf​arxiv.org/pdf/2302.13971v1.pdf

https://github.com/facebookresearch/llama​github.com/facebookresearch/llama

  • OPT: modelos de lenguaje de transformadores preentrenados abiertos

https://arxiv.org/pdf/2205.01068.pdf​arxiv.org/pdf/2205.01068.pdf

GitHub - facebookresearch/metaseq: Repo para trabajo externo a gran escala​github.com/facebookresearch/metaseqUploading...ReuploadCancel

Google

  • T5: Exploración de los límites del aprendizaje por transferencia con un transformador unificado de texto a texto

https://arxiv.org/pdf/1910.10683.pdf​arxiv.org/pdf/1910.10683.pdf

https://github.com/google-research/text-to-text-transfer-transformer​github.com/google-research/text-to-text-transfer-transformer

Nota: El código y el modelo de T5 también son de código abierto en la plataforma de cara abrazada.

google (IA de Google) Huggingface.co/google?sort_models=likes#modelsSubiendo...Volver a subirCancelar

  • mT5: un transformador de texto a texto preentrenado masivamente multilingüe

https://arxiv.org/pdf/2010.11934.pdf​arxiv.org/pdf/2010.11934.pdf

https://huggingface.co/models?search=mt5​huggingface.co/models?search=mt5

  • UL2 y Flan-UL2: Unificación de paradigmas de aprendizaje de idiomas

https://arxiv.org/pdf/2205.05131.pdf​arxiv.org/pdf/2205.05131.pdf

Blog:

https://www.yitay.net/blog/flan-ul2-20b​www.yitay.net/blog/flan-ul2-20b

modelo:

google/ul2 · Hugging Face​huggingface.co/google/ul2Subiendo...Volver a subirCancelar

google/flan-ul2 Hugging Face​huggingface.co/google/flan-ul2Subiendo...Volver a subirCancelar

  • PaLM: Modelado de lenguaje escalable con Pathways

https://arxiv.org/pdf/2204.02311.pdf​arxiv.org/pdf/2204.02311.pdf

  • LaMDA: modelos de lenguaje para aplicaciones de diálogo

https://arxiv.org/pdf/2201.08239.pdf​arxiv.org/pdf/2201.08239.pdf

Blog:

https://blog.google/technology/ai/lamda/​blog.google/technology/ai/lamda/

  • Flan-T5 y Flan-PaLM: Instrucción escalable: modelos de lenguaje ajustados

https://arxiv.org/pdf/2210.11416.pdf​arxiv.org/pdf/2210.11416.pdf

google/flan-t5-large Hugging Face​huggingface.co/google/flan-t5-largeSubiendo...Volver a subirCancelar

  • Flan: LOS MODELOS DE LENGUAJE AJUSTADOS SON APRENDIZAJES DE TIRO CERO

https://arxiv.org/pdf/2109.01652.pdf​arxiv.org/pdf/2109.01652.pdf

**Nota: En el sistema de nombres de Google, el prefijo Flan básicamente significa que el modelo ha pasado la instrucción de ajuste.

BigScience (organización de interés sin fines de lucro)

  • BLOOM: un modelo de idioma multilingüe de acceso abierto con parámetros 176B

https://arxiv.org/pdf/2211.05100.pdf​arxiv.org/pdf/2211.05100.pdf

bigscience/bloom · Hugging Face​huggingface.co/bigscience/bloomUploading...ReuploadCancel

  • T0: EL ENTRENAMIENTO IMPULSADO MULTITAREA PERMITE LA GENERALIZACIÓN DE TAREAS CERO DISPARO

https://arxiv.org/pdf/2110.08207.pdf​arxiv.org/pdf/2110.08207.pdf

https://huggingface.co/bigscience/T0​huggingface.co/bigscience/T0

  • BLOOMZ y mT0: versión multilingüe de BLOOM y T0

https://arxiv.org/pdf/2211.01786.pdf​arxiv.org/pdf/2211.01786.pdf

EleutherAI

  • GPT-NEO

https://github.com/EleutherAI/gpt-neo​github.com/EleutherAI/gpt-neo

  • GPT-NeoX

https://arxiv.org/pdf/2204.06745.pdf​arxiv.org/pdf/2204.06745.pdf

https://huggingface.co/EleutherAI/gpt-neox-20b​huggingface.co/EleutherAI/gpt-neox-20b

IA abierta

Los modelos grandes de OpenAI no han sido de código abierto desde GPT 3. Para conocer la API de los modelos de la serie GPT de OpenAI, consulte:

No. 9: API de OpenAI Explicación detallada de todos los modelos GPT 47 De acuerdo · 0 Comentarios

Stanford

Alpaca, el modelo de ajuste fino de instrucciones de LLaMA, el efecto alcanza el nivel GPT-3.5.

https://github.com/tatsu-lab/stanford_alpaca​github.com/tatsu-lab/stanford_alpaca

Lo último: resumen de datos de fuente abierta de ajuste rápido/instruido

No. 9: Resumir los datos de Instruct/Prompt Tuning disponibles en código abierto 440 de acuerdo · 4 comentar artículos

**Si hay modelos grandes que no se mencionan en este artículo, los lectores pueden dejar un mensaje en el área de comentarios.

Supongo que te gusta

Origin blog.csdn.net/bruce__ray/article/details/131123673
Recomendado
Clasificación