Большие модели (Large Language Models, LLM) являются одним из наиболее важных направлений в текущих исследованиях и промышленности в области ИИ и НЛП.
В этой статье будут обобщены текущие основные крупномасштабные модели. (*Обновлено 2023.03.19)
В данной работе модель с размером параметра выше 1B рассматривается как большая модель.
Список моделей
Модель | автор | Размер | тип | Открытый источник? |
---|---|---|---|---|
ЛЛаМа | Мета ИИ | 7Б-65Б | Декодер | открыть |
ОПТ | Мета ИИ | 125М-175Б | Декодер | открыть |
Т5 | 220М-11Б | Кодер-декодер | открыть | |
мТ5 | 235М-13Б | Кодер-декодер | открыть | |
УЛ2 | 20Б | Кодер-декодер | открыть | |
Ладонь | 540Б | Декодер | нет | |
ЛаМДА | 2Б-137Б | Декодер | нет | |
ФЛАН-Т5 | То же, что Т5 | Кодер-декодер | открыть | |
ФЛАН-УЛ2 | То же, что U2 | Кодер-декодер | открыть | |
ФЛАН-ПАЛМ | То же, что PaLM | Декодер | нет | |
ФЛАН | 同LaMDA | Декодер | нет | |
ЦВЕСТИ | BigScience | 176Б | Декодер | открыть |
Т0 | BigScience | 3Б | Декодер | открыть |
БЛУМЗ | BigScience | Тот же Блум | Декодер | открыть |
mT0 | BigScience | То же, что и Т0 | Декодер | открыть |
GPT-Нео | ЭлеутерАИ | 125М-2,7Б | Декодер | открыть |
GPT-NeoX | ЭлеутерАИ | 20Б | Декодер | открыть |
GPT3 | OpenAI | 175Б (давинчи) | Декодер | нет |
GPT4 | OpenAI | неизвестный | OpenAI | нет |
InstructGPT | OpenAI | 1,3 млрд. | Декодер | нет |
Альпака | Стэнфорд | 同LlaMa | Декодер | открыть |
Мета/ИИ Facebook
- LLaMA: открытые и эффективные базовые языковые модели
https://arxiv.org/pdf/2302.13971v1.pdfarxiv.org/pdf/2302.13971v1.pdf
https://github.com/facebookresearch/llamagithub.com/facebookresearch/llama
- OPT: открытые предварительно обученные языковые модели Transformer
https://arxiv.org/pdf/2205.01068.pdfarxiv.org/pdf/2205.01068.pdf
- T5: Изучение ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст
https://arxiv.org/pdf/1910.10683.pdfarxiv.org/pdf/1910.10683.pdf
Примечание. Код и модель T5 также являются открытым исходным кодом на платформе с обнимающим лицом.
google (ИИ Google) Huggingface.co/google?sort_models=likes#modelsЗагрузка...Повторная загрузкаОтмена
- mT5: многоязычный предварительно обученный преобразователь текста в текст
https://arxiv.org/pdf/2010.11934.pdfarxiv.org/pdf/2010.11934.pdf
https://huggingface.co/models?search=mt5huggingface.co/models?search=mt5
- UL2 и Flan-UL2: объединение парадигм изучения языка
https://arxiv.org/pdf/2205.05131.pdfarxiv.org/pdf/2205.05131.pdf
блог:
https://www.yitay.net/blog/flan-ul2-20bwww.yitay.net/blog/flan-ul2-20b
модель:
google/ul2 · Обнимающее лицоhuggingface.co/google/ul2Uploading...ReuploadCancel
google/flan-ul2 Hugging Facehuggingface.co/google/flan-ul2Uploading...ReuploadCancel
- PaLM: масштабируемое языковое моделирование с путями
https://arxiv.org/pdf/2204.02311.pdfarxiv.org/pdf/2204.02311.pdf
- LaMDA: языковые модели для диалоговых приложений
https://arxiv.org/pdf/2201.08239.pdfarxiv.org/pdf/2201.08239.pdf
блог:
https://blog.google/technology/ai/lamda/blog.google/technology/ai/lamda/
- Flan-T5 и Flan-PaLM: масштабирование языковых моделей с тонкой настройкой инструкций
https://arxiv.org/pdf/2210.11416.pdfarxiv.org/pdf/2210.11416.pdf
- Флан: ТОЧНО НАСТРОЙКИ ЯЗЫКОВЫХ МОДЕЛЕЙ НУЛЕВЫЕ УЧАЩИЕ
https://arxiv.org/pdf/2109.01652.pdfarxiv.org/pdf/2109.01652.pdf
**Примечание. В системе именования Google префикс Flan в основном означает, что модель прошла настройку инструкций.
BigScience (некоммерческая организация)
- BLOOM: многоязычная модель открытого доступа с параметрами 176B
https://arxiv.org/pdf/2211.05100.pdfarxiv.org/pdf/2211.05100.pdf
bigscience/bloom · Обнимающее лицоhuggingface.co/bigscience/bloomUploading...ReuploadCancel
- T0: МНОГОЗАДАЧНОЕ ОБУЧЕНИЕ ПОЗВОЛЯЕТ ОБОБЩАТЬ НУЛЕВЫЕ ЗАДАЧИ
https://arxiv.org/pdf/2110.08207.pdfarxiv.org/pdf/2110.08207.pdf
https://huggingface.co/bigscience/T0huggingface.co/bigscience/T0
- BLOOMZ и mT0: Многоязычная версия BLOOM и T0
https://arxiv.org/pdf/2211.01786.pdfarxiv.org/pdf/2211.01786.pdf
ЭлеутерАИ
- GPT-NEO
https://github.com/EleutherAI/gpt-neogithub.com/EleutherAI/gpt-neo
- GPT-NeoX
https://arxiv.org/pdf/2204.06745.pdfarxiv.org/pdf/2204.06745.pdf
https://huggingface.co/EleutherAI/gpt-neox-20bhuggingface.co/EleutherAI/gpt-neox-20b
OpenAI
Большие модели OpenAI не были открытым исходным кодом со времен GPT 3. Чтобы узнать об API моделей OpenAI серии GPT, см.:
№ 9: Подробное объяснение API OpenAI для всех моделей GPT 47 Согласен · 0 комментариев
Стэнфорд
Альпака, модель тонкой настройки инструкции LLaMA, эффект достигает уровня GPT-3.5.
https://github.com/tatsu-lab/stanford_alpacagithub.com/tatsu-lab/stanford_alpaca
Последнее: подсказка/инструктирование сводки данных по открытому исходному коду
** Если в этой статье не упомянуты большие модели, читатели могут оставить сообщение в области комментариев.