Los modelos grandes (Large Language Models, LLM) son una de las direcciones más importantes en la investigación y la industria actual de IA y NLP.
Este artículo resumirá los principales modelos actuales a gran escala. (*Actualizado el 19.03.2023)
En este documento, el modelo con un tamaño de parámetro superior a 1B se considera un modelo grande.
Lista de modelos
Modelo | autor | Tamaño | tipo | ¿Fuente abierta? |
---|---|---|---|---|
Llama | Meta IA | 7B-65B | Descifrador | abierto |
OPTAR | Meta IA | 125M-175B | Descifrador | abierto |
T5 | 220M-11B | Codificador-Decodificador | abierto | |
mT5 | 235M-13B | Codificador-Decodificador | abierto | |
UL2 | 20B | Codificador-Decodificador | abierto | |
Palmera | 540B | Descifrador | No | |
LaMDA | 2B-137B | Descifrador | No | |
FLAN-T5 | Igual que T5 | Codificador-Decodificador | abierto | |
FLAN-UL2 | Igual que U2 | Codificador-Decodificador | abierto | |
FLAN-PALMA | Igual que PaLM | Descifrador | No | |
FLAN | 同LaMDA | Descifrador | No | |
FLORACIÓN | gran ciencia | 176B | Descifrador | abierto |
T0 | gran ciencia | 3B | Descifrador | abierto |
BLOOMZ | gran ciencia | Misma FLORACIÓN | Descifrador | abierto |
mT0 | gran ciencia | Igual que T0 | Descifrador | abierto |
GPT-Neo | EleutherAI | 125M-2.7B | Descifrador | abierto |
GPT-NeoX | EleutherAI | 20B | Descifrador | abierto |
GPT3 | IA abierta | 175B (davinci) | Descifrador | No |
GPT4 | IA abierta | desconocido | IA abierta | No |
InstruirGPT | IA abierta | 1.3B | Descifrador | No |
Alpaca | Stanford | 同LlaMa | Descifrador | abierto |
IA Meta/Facebook
- LLaMA: Modelos Lingüísticos Fundamentos Abiertos y Eficientes
https://arxiv.org/pdf/2302.13971v1.pdfarxiv.org/pdf/2302.13971v1.pdf
https://github.com/facebookresearch/llamagithub.com/facebookresearch/llama
- OPT: modelos de lenguaje de transformadores preentrenados abiertos
https://arxiv.org/pdf/2205.01068.pdfarxiv.org/pdf/2205.01068.pdf
- T5: Exploración de los límites del aprendizaje por transferencia con un transformador unificado de texto a texto
https://arxiv.org/pdf/1910.10683.pdfarxiv.org/pdf/1910.10683.pdf
Nota: El código y el modelo de T5 también son de código abierto en la plataforma de cara abrazada.
- mT5: un transformador de texto a texto preentrenado masivamente multilingüe
https://arxiv.org/pdf/2010.11934.pdfarxiv.org/pdf/2010.11934.pdf
https://huggingface.co/models?search=mt5huggingface.co/models?search=mt5
- UL2 y Flan-UL2: Unificación de paradigmas de aprendizaje de idiomas
https://arxiv.org/pdf/2205.05131.pdfarxiv.org/pdf/2205.05131.pdf
Blog:
https://www.yitay.net/blog/flan-ul2-20bwww.yitay.net/blog/flan-ul2-20b
modelo:
google/ul2 · Hugging Facehuggingface.co/google/ul2Subiendo...Volver a subirCancelar
google/flan-ul2 Hugging Facehuggingface.co/google/flan-ul2Subiendo...Volver a subirCancelar
- PaLM: Modelado de lenguaje escalable con Pathways
https://arxiv.org/pdf/2204.02311.pdfarxiv.org/pdf/2204.02311.pdf
- LaMDA: modelos de lenguaje para aplicaciones de diálogo
https://arxiv.org/pdf/2201.08239.pdfarxiv.org/pdf/2201.08239.pdf
Blog:
https://blog.google/technology/ai/lamda/blog.google/technology/ai/lamda/
- Flan-T5 y Flan-PaLM: Instrucción escalable: modelos de lenguaje ajustados
https://arxiv.org/pdf/2210.11416.pdfarxiv.org/pdf/2210.11416.pdf
- Flan: LOS MODELOS DE LENGUAJE AJUSTADOS SON APRENDIZAJES DE TIRO CERO
https://arxiv.org/pdf/2109.01652.pdfarxiv.org/pdf/2109.01652.pdf
**Nota: En el sistema de nombres de Google, el prefijo Flan básicamente significa que el modelo ha pasado la instrucción de ajuste.
BigScience (organización de interés sin fines de lucro)
- BLOOM: un modelo de idioma multilingüe de acceso abierto con parámetros 176B
https://arxiv.org/pdf/2211.05100.pdfarxiv.org/pdf/2211.05100.pdf
bigscience/bloom · Hugging Facehuggingface.co/bigscience/bloomUploading...ReuploadCancel
- T0: EL ENTRENAMIENTO IMPULSADO MULTITAREA PERMITE LA GENERALIZACIÓN DE TAREAS CERO DISPARO
https://arxiv.org/pdf/2110.08207.pdfarxiv.org/pdf/2110.08207.pdf
https://huggingface.co/bigscience/T0huggingface.co/bigscience/T0
- BLOOMZ y mT0: versión multilingüe de BLOOM y T0
https://arxiv.org/pdf/2211.01786.pdfarxiv.org/pdf/2211.01786.pdf
EleutherAI
- GPT-NEO
https://github.com/EleutherAI/gpt-neogithub.com/EleutherAI/gpt-neo
- GPT-NeoX
https://arxiv.org/pdf/2204.06745.pdfarxiv.org/pdf/2204.06745.pdf
https://huggingface.co/EleutherAI/gpt-neox-20bhuggingface.co/EleutherAI/gpt-neox-20b
IA abierta
Los modelos grandes de OpenAI no han sido de código abierto desde GPT 3. Para conocer la API de los modelos de la serie GPT de OpenAI, consulte:
No. 9: API de OpenAI Explicación detallada de todos los modelos GPT 47 De acuerdo · 0 Comentarios
Stanford
Alpaca, el modelo de ajuste fino de instrucciones de LLaMA, el efecto alcanza el nivel GPT-3.5.
https://github.com/tatsu-lab/stanford_alpacagithub.com/tatsu-lab/stanford_alpaca
Lo último: resumen de datos de fuente abierta de ajuste rápido/instruido
**Si hay modelos grandes que no se mencionan en este artículo, los lectores pueden dejar un mensaje en el área de comentarios.