Сводка по большой модели (LLM) - Код мира

Сводка по большой модели (LLM)

информация 2023-06-12 10:26:11 Время чтения: null

Большие модели (Large Language Models, LLM) являются одним из наиболее важных направлений в текущих исследованиях и промышленности в области ИИ и НЛП.

В этой статье будут обобщены текущие основные крупномасштабные модели. (*Обновлено 2023.03.19)

В данной работе модель с размером параметра выше 1B рассматривается как большая модель.

Список моделей

Модель	автор	Размер	тип	Открытый источник?
ЛЛаМа	Мета ИИ	7Б-65Б	Декодер	открыть
ОПТ	Мета ИИ	125М-175Б	Декодер	открыть
Т5	Google	220М-11Б	Кодер-декодер	открыть
мТ5	Google	235М-13Б	Кодер-декодер	открыть
УЛ2	Google	20Б	Кодер-декодер	открыть
Ладонь	Google	540Б	Декодер	нет
ЛаМДА	Google	2Б-137Б	Декодер	нет
ФЛАН-Т5	Google	То же, что Т5	Кодер-декодер	открыть
ФЛАН-УЛ2	Google	То же, что U2	Кодер-декодер	открыть
ФЛАН-ПАЛМ	Google	То же, что PaLM	Декодер	нет
ФЛАН	Google	同LaMDA	Декодер	нет
ЦВЕСТИ	BigScience	176Б	Декодер	открыть
Т0	BigScience	3Б	Декодер	открыть
БЛУМЗ	BigScience	Тот же Блум	Декодер	открыть
mT0	BigScience	То же, что и Т0	Декодер	открыть
GPT-Нео	ЭлеутерАИ	125М-2,7Б	Декодер	открыть
GPT-NeoX	ЭлеутерАИ	20Б	Декодер	открыть
GPT3	OpenAI	175Б (давинчи)	Декодер	нет
GPT4	OpenAI	неизвестный	OpenAI	нет
InstructGPT	OpenAI	1,3 млрд.	Декодер	нет
Альпака	Стэнфорд	同LlaMa	Декодер	открыть

Мета/ИИ Facebook

LLaMA: открытые и эффективные базовые языковые модели

https://arxiv.org/pdf/2302.13971v1.pdfarxiv.org/pdf/2302.13971v1.pdf

https://github.com/facebookresearch/llamagithub.com/facebookresearch/llama

OPT: открытые предварительно обученные языковые модели Transformer

https://arxiv.org/pdf/2205.01068.pdfarxiv.org/pdf/2205.01068.pdf

GitHub — facebookresearch/metaseq: Репозиторий для внешней крупномасштабной работыgithub.com/facebookresearch/metaseqUploading…ReuploadCancel

Google

T5: Изучение ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст

https://arxiv.org/pdf/1910.10683.pdfarxiv.org/pdf/1910.10683.pdf

https://github.com/google-research/text-to-text-transfer-transformergithub.com/google-research/text-to-text-transfer-transformer

Примечание. Код и модель T5 также являются открытым исходным кодом на платформе с обнимающим лицом.

google (ИИ Google) Huggingface.co/google?sort_models=likes#modelsЗагрузка...Повторная загрузкаОтмена

mT5: многоязычный предварительно обученный преобразователь текста в текст

https://arxiv.org/pdf/2010.11934.pdfarxiv.org/pdf/2010.11934.pdf

https://huggingface.co/models?search=mt5huggingface.co/models?search=mt5

UL2 и Flan-UL2: объединение парадигм изучения языка

https://arxiv.org/pdf/2205.05131.pdfarxiv.org/pdf/2205.05131.pdf

блог:

https://www.yitay.net/blog/flan-ul2-20bwww.yitay.net/blog/flan-ul2-20b

модель:

google/ul2 · Обнимающее лицоhuggingface.co/google/ul2Uploading...ReuploadCancel

google/flan-ul2 Hugging Facehuggingface.co/google/flan-ul2Uploading...ReuploadCancel

PaLM: масштабируемое языковое моделирование с путями

https://arxiv.org/pdf/2204.02311.pdfarxiv.org/pdf/2204.02311.pdf

LaMDA: языковые модели для диалоговых приложений

https://arxiv.org/pdf/2201.08239.pdfarxiv.org/pdf/2201.08239.pdf

блог:

https://blog.google/technology/ai/lamda/blog.google/technology/ai/lamda/

Flan-T5 и Flan-PaLM: масштабирование языковых моделей с тонкой настройкой инструкций

https://arxiv.org/pdf/2210.11416.pdfarxiv.org/pdf/2210.11416.pdf

google/flan-t5-large Обнимающееся лицоhuggingface.co/google/flan-t5-largeЗагрузка...Повторная загрузкаОтмена

Флан: ТОЧНО НАСТРОЙКИ ЯЗЫКОВЫХ МОДЕЛЕЙ НУЛЕВЫЕ УЧАЩИЕ

https://arxiv.org/pdf/2109.01652.pdfarxiv.org/pdf/2109.01652.pdf

**Примечание. В системе именования Google префикс Flan в основном означает, что модель прошла настройку инструкций.

BigScience (некоммерческая организация)

BLOOM: многоязычная модель открытого доступа с параметрами 176B

https://arxiv.org/pdf/2211.05100.pdfarxiv.org/pdf/2211.05100.pdf

bigscience/bloom · Обнимающее лицоhuggingface.co/bigscience/bloomUploading...ReuploadCancel

T0: МНОГОЗАДАЧНОЕ ОБУЧЕНИЕ ПОЗВОЛЯЕТ ОБОБЩАТЬ НУЛЕВЫЕ ЗАДАЧИ

https://arxiv.org/pdf/2110.08207.pdfarxiv.org/pdf/2110.08207.pdf

https://huggingface.co/bigscience/T0huggingface.co/bigscience/T0

BLOOMZ и mT0: Многоязычная версия BLOOM и T0

https://arxiv.org/pdf/2211.01786.pdfarxiv.org/pdf/2211.01786.pdf

ЭлеутерАИ

GPT-NEO

https://github.com/EleutherAI/gpt-neogithub.com/EleutherAI/gpt-neo

GPT-NeoX

https://arxiv.org/pdf/2204.06745.pdfarxiv.org/pdf/2204.06745.pdf

https://huggingface.co/EleutherAI/gpt-neox-20bhuggingface.co/EleutherAI/gpt-neox-20b

OpenAI

Большие модели OpenAI не были открытым исходным кодом со времен GPT 3. Чтобы узнать об API моделей OpenAI серии GPT, см.:

№ 9: Подробное объяснение API OpenAI для всех моделей GPT 47 Согласен · 0 комментариев

Стэнфорд

Альпака, модель тонкой настройки инструкции LLaMA, эффект достигает уровня GPT-3.5.

https://github.com/tatsu-lab/stanford_alpacagithub.com/tatsu-lab/stanford_alpaca

Последнее: подсказка/инструктирование сводки данных по открытому исходному коду

№ 9: Обобщить данные Instruct/Prompt Tuning, доступные в открытом исходном коде 440 согласен · 4 статьи с комментариями

** Если в этой статье не упомянуты большие модели, читатели могут оставить сообщение в области комментариев.

рекомендация

отblog.csdn.net/bruce__ray/article/details/131123673

Сводка LLM (постоянно обновляется)

Новый мир генеративного ИИ | Обзор больших языковых моделей (LLM)

Накануне революции LLM в области искусственного интеллекта: модель-трансформер, объединяющая обработку естественного языка в одной статье

Сводка по большой модели (LLM)

Размышления о инженерной практике для LLM

Обзор крупномасштабных языковых моделей LLM

Национальный проект искусственного интеллекта: подключите LLM к посадочному бедру через ленгчейн

Основы методов большой языковой модели (LLM)

[Большие языковые модели] Новые архитектуры для приложений LLM

[LLM] Каков температурный коэффициент в большой модели?

Обзор оценки модели большого языка (LLM)

[LLM] Набор данных для точной настройки инструкции по сборке для самостоятельного обучения

【LLM】Практика оперативной настройки большой модели

Девять типов приложений ИИ и пять простых подсказок LLM

LLM: регуляризация для больших моделей

LLM: тонкая настройка предварительно обученной языковой модели

【LLM】Сцена финансовой большой модели и практика тонкой настройки большой модели Лоры

[Инструкция по тонкой настройке серии LLM] Короче говоря, "Подсказка" для инструкции по тонкой настройке больших моделей

Артур выпускает инструмент оценки модели ИИ с открытым исходным кодом, чтобы определить лучший LLM для конкретного случая использования.

Модель большого языка: какова концепция LLM?

Научите студентов LLM персонализировать – подход, вдохновленный обучением письму

Выпущен «Отчет об испытаниях отечественной продукции LLM»!

Большая модель (LLM) + улучшение контекстного поиска

Университет науки и технологий Китая предложил: персонализированный обзор программ LLM с подробным описанием проблем и возможностей крупных моделей и персонализации.

Архитектура LLM, механизм самообслуживания. Архитектура трансформаторов. Внимание – это все, что вам нужно.

Тонкая настройка инструкций LLM Тонкая настройка инструкций

Законы масштабирования LLM и модели, оптимальные для вычислений. Законы масштабирования и модели, оптимальные для вычислений.

Эффективные стратегии вычислений с использованием нескольких графических процессоров для LLM

Токенизатор для LLM

Предварительное обучение адаптации предметной области адаптации предметной области LLM

рекомендация

Microsoft выпускает крупное обновление шрифта с открытым исходным кодом Cascadia Code

ранжирование

поиск P95 двумерная матрица (leetcode 74)

Название Установить базовые программирования средних рациональные 7-35 (20 минут)

Пофантазировать резервную копию базы данных и процесс восстановления

Внешняя загрузка EXCEL

Галантерея | Использование SPSS для расширенного статистического анализа Фаза I

PK10 микро-канал группы 9.9 [Рекомендуется]

обучение мангуста (1) Https-связь

Если бродить по земле, что делают большие данные?

Poj1584 [] [] [шаблон] определяет, следует ли рассчитывать многоугольник несколько выпуклой оболочки, то определяется, является ли круглой выпуклой оболочкой,

Как JavaScript получает информацию хвостовых тегов ID3v1 и ID3v2, такую как метаданные файлов MP3, изображения обложек альбомов mp3 и т. д.

файл

более

2024-05-27(1)

2024-05-26(0)

2024-05-25(1)

2024-05-24(13)

2024-05-23(33)

2024-05-22(10)

2024-05-21(35)

2024-05-20(5)

2024-05-19(0)

2024-05-18(31)