Лама 2: Будущее языковых моделей с открытым исходным кодом

представлять

Meta делает гигантский скачок вперед в генеративной гонке ИИ, запуская Llama 2, новое семейство больших языковых моделей (LLM) с открытым исходным кодом, которое обещает демократизировать эти методы.

Модель следующего поколения обучается на 40% большем количестве данных, чем ее предшественница, Llama 1. Он был обучен в общей сложности на 2 триллионах токенов, которые являются основными единицами текста (символы, слова, знаки препинания и т. д.), которые может обрабатывать модель.

Новая версия Llama также удваивает длину контекста по сравнению с предыдущей версией и теперь использует контекст из 4096 токенов. Чтобы понять, что это значит, нам нужно понять, как LLM генерирует свой вывод. Получив подсказку, языковая модель использует этот текст, чтобы предсказать, каким должен быть следующий токен в этой последовательности текста, что соответствует началу ответа на наш вопрос. Затем LLM использует текст приглашения и первый маркер своего ответа, чтобы предсказать, каким должен быть второй маркер его ответа, и так далее. Контекст 4096 токенов означает, что Llama 2 может учитывать последние 4096 токенов нашего диалога при генерации каждого токена своего ответа. Чем больше размер контекста, тем выше согласованность и качество его ответов.

технические характеристики

Помимо вышеупомянутых улучшений, следует также отметить, что Лама 2 доступна в разных версиях и в разных размерах. Самый компактный имеет 7 миллиардов параметров, средний — 13 миллиардов параметров, а самый большой — 70 миллиардов параметров. Количество параметров измеряет количество лингвистической информации и паттернов, которые модель может хранить как внутреннее представление, и измеряет качество ответов, которые она может генерировать.

Размер самой маленькой из этих моделей составляет около 13 ГБ. Это означает, что его можно легко использовать в системах с графическими процессорами среднего уровня. Это означает, что, в отличие от других языковых моделей более крупного масштаба, таких как ChatGPT и Bard, отдельные пользователи и исследователи могут проводить свои собственные эксперименты и модификации в этой нейронной сети, что приводит к более высокому уровню инноваций, чем позволяют закрытые модели.

Кроме того, каждая из трех моделей разного размера доступна в двух разных версиях: как предварительно обученная языковая модель

Guess you like

Origin blog.csdn.net/iCloudEnd/article/details/131847136