Сводка по большой модели (LLM)

Большие модели (Large Language Models, LLM) являются одним из наиболее важных направлений в текущих исследованиях и промышленности в области ИИ и НЛП.

В этой статье будут обобщены текущие основные крупномасштабные модели. (*Обновлено 2023.03.19)

В данной работе модель с размером параметра выше 1B рассматривается как большая модель.

Список моделей

Модель автор Размер тип Открытый источник?
ЛЛаМа Мета ИИ 7Б-65Б Декодер открыть
ОПТ Мета ИИ 125М-175Б Декодер открыть
Т5 Google 220М-11Б Кодер-декодер открыть
мТ5 Google 235М-13Б Кодер-декодер открыть
УЛ2 Google 20Б Кодер-декодер открыть
Ладонь Google 540Б Декодер нет
ЛаМДА Google 2Б-137Б Декодер нет
ФЛАН-Т5 Google То же, что Т5 Кодер-декодер открыть
ФЛАН-УЛ2 Google То же, что U2 Кодер-декодер открыть
ФЛАН-ПАЛМ Google То же, что PaLM Декодер нет
ФЛАН Google 同LaMDA Декодер нет
ЦВЕСТИ BigScience 176Б Декодер открыть
Т0 BigScience Декодер открыть
БЛУМЗ BigScience Тот же Блум Декодер открыть
mT0 BigScience То же, что и Т0 Декодер открыть
GPT-Нео ЭлеутерАИ 125М-2,7Б Декодер открыть
GPT-NeoX ЭлеутерАИ 20Б Декодер открыть
GPT3 OpenAI 175Б (давинчи) Декодер нет
GPT4 OpenAI неизвестный OpenAI нет
InstructGPT OpenAI 1,3 млрд. Декодер нет
Альпака Стэнфорд 同LlaMa Декодер открыть

Мета/ИИ Facebook

  • LLaMA: открытые и эффективные базовые языковые модели

https://arxiv.org/pdf/2302.13971v1.pdf​arxiv.org/pdf/2302.13971v1.pdf

https://github.com/facebookresearch/llama​github.com/facebookresearch/llama

  • OPT: открытые предварительно обученные языковые модели Transformer

https://arxiv.org/pdf/2205.01068.pdf​arxiv.org/pdf/2205.01068.pdf

GitHub — facebookresearch/metaseq: Репозиторий для внешней крупномасштабной работы​github.com/facebookresearch/metaseqUploading…ReuploadCancel

Google

  • T5: Изучение ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст

https://arxiv.org/pdf/1910.10683.pdf​arxiv.org/pdf/1910.10683.pdf

https://github.com/google-research/text-to-text-transfer-transformer​github.com/google-research/text-to-text-transfer-transformer

Примечание. Код и модель T5 также являются открытым исходным кодом на платформе с обнимающим лицом.

google (ИИ Google) Huggingface.co/google?sort_models=likes#modelsЗагрузка...Повторная загрузкаОтмена

  • mT5: многоязычный предварительно обученный преобразователь текста в текст

https://arxiv.org/pdf/2010.11934.pdf​arxiv.org/pdf/2010.11934.pdf

https://huggingface.co/models?search=mt5​huggingface.co/models?search=mt5

  • UL2 и Flan-UL2: объединение парадигм изучения языка

https://arxiv.org/pdf/2205.05131.pdf​arxiv.org/pdf/2205.05131.pdf

блог:

https://www.yitay.net/blog/flan-ul2-20b​www.yitay.net/blog/flan-ul2-20b

модель:

google/ul2 · Обнимающее лицо​huggingface.co/google/ul2Uploading...ReuploadCancel

google/flan-ul2 Hugging Face​huggingface.co/google/flan-ul2Uploading...ReuploadCancel

  • PaLM: масштабируемое языковое моделирование с путями

https://arxiv.org/pdf/2204.02311.pdf​arxiv.org/pdf/2204.02311.pdf

  • LaMDA: языковые модели для диалоговых приложений

https://arxiv.org/pdf/2201.08239.pdf​arxiv.org/pdf/2201.08239.pdf

блог:

https://blog.google/technology/ai/lamda/​blog.google/technology/ai/lamda/

  • Flan-T5 и Flan-PaLM: масштабирование языковых моделей с тонкой настройкой инструкций

https://arxiv.org/pdf/2210.11416.pdf​arxiv.org/pdf/2210.11416.pdf

google/flan-t5-large Обнимающееся лицоhuggingface.co/google/flan-t5-largeЗагрузка...Повторная загрузкаОтмена

  • Флан: ТОЧНО НАСТРОЙКИ ЯЗЫКОВЫХ МОДЕЛЕЙ НУЛЕВЫЕ УЧАЩИЕ

https://arxiv.org/pdf/2109.01652.pdf​arxiv.org/pdf/2109.01652.pdf

**Примечание. В системе именования Google префикс Flan в основном означает, что модель прошла настройку инструкций.

BigScience (некоммерческая организация)

  • BLOOM: многоязычная модель открытого доступа с параметрами 176B

https://arxiv.org/pdf/2211.05100.pdf​arxiv.org/pdf/2211.05100.pdf

bigscience/bloom · Обнимающее лицо​huggingface.co/bigscience/bloomUploading...ReuploadCancel

  • T0: МНОГОЗАДАЧНОЕ ОБУЧЕНИЕ ПОЗВОЛЯЕТ ОБОБЩАТЬ НУЛЕВЫЕ ЗАДАЧИ

https://arxiv.org/pdf/2110.08207.pdf​arxiv.org/pdf/2110.08207.pdf

https://huggingface.co/bigscience/T0huggingface.co/bigscience/T0

  • BLOOMZ и mT0: Многоязычная версия BLOOM и T0

https://arxiv.org/pdf/2211.01786.pdf​arxiv.org/pdf/2211.01786.pdf

ЭлеутерАИ

  • GPT-NEO

https://github.com/EleutherAI/gpt-neo​github.com/EleutherAI/gpt-neo

  • GPT-NeoX

https://arxiv.org/pdf/2204.06745.pdf​arxiv.org/pdf/2204.06745.pdf

https://huggingface.co/EleutherAI/gpt-neox-20b​huggingface.co/EleutherAI/gpt-neox-20b

OpenAI

Большие модели OpenAI не были открытым исходным кодом со времен GPT 3. Чтобы узнать об API моделей OpenAI серии GPT, см.:

№ 9: Подробное объяснение API OpenAI для всех моделей GPT 47 Согласен · 0 комментариев

Стэнфорд

Альпака, модель тонкой настройки инструкции LLaMA, эффект достигает уровня GPT-3.5.

https://github.com/tatsu-lab/stanford_alpaca​github.com/tatsu-lab/stanford_alpaca

Последнее: подсказка/инструктирование сводки данных по открытому исходному коду

№ 9: Обобщить данные Instruct/Prompt Tuning, доступные в открытом исходном коде 440 согласен · 4 статьи с комментариями

** Если в этой статье не упомянуты большие модели, читатели могут оставить сообщение в области комментариев.

рекомендация

отblog.csdn.net/bruce__ray/article/details/131123673
рекомендация