Введение в LLaMA: знакомство с официальным сайтом крупномасштабной языковой модели с 65 миллиардами параметров.

24 февраля 2023 г.

ОБНОВЛЕНИЕ: мы только что запустили Llama 2  — см. наш пост в блоге о Llama 2 для получения дополнительной информации о последней версии .

В рамках приверженности Meta открытой науке сегодня мы публично выпускаем LLaMA (Meta AI для больших языков), современную базовую модель для больших языков , разработанную, чтобы помочь исследователям продвигать работу в этой области искусственного интеллекта. Меньшие по размеру и более производительные модели, такие как LLaMA, позволяют другим членам исследовательского сообщества, не имеющим доступа к обширной инфраструктуре, изучать эти модели, что еще больше упрощает доступ к этой важной и быстро меняющейся области.

Желательно обучение небольшой базовой модели, в пространстве большой языковой модели, поскольку для тестирования новых методов, проверки работы других и изучения новых вариантов использования требуется меньше вычислительной мощности и ресурсов. Базовые модели обучаются на больших объемах неразмеченных данных, что делает их идеальными для тонкой настройки для различных задач. Мы делаем LLaMA доступными в нескольких размерах ( параметры 7B, 13B , 33B и 65B ) и делимся карточками моделей LLaMA с подробным описанием того, как мы строим модели в соответствии с нашим подходом к ответственным практикам искусственного интеллекта .

В прошлом году большие языковые модели — системы обработки естественного языка (NLP) с миллиардами параметров — продемонстрировали новые возможности для создания творческого текста, решения математических теорем , предсказания белковых структур , ответов на вопросы о понимании прочитанного и многого другого. Они являются одним из самых ярких примеров огромных потенциальных преимуществ, которые ИИ может принести миллиардам людей в любом масштабе.

Несмотря на весь недавний прогресс в больших языковых моделях, всесторонний доступ к ним для исследований остается ограниченным из-за ресурсов, необходимых для обучения и запуска таких больших моделей. Этот ограниченный доступ ограничивает способность исследователей понять, как и почему работают эти большие языковые модели, препятствуя прогрессу в усилиях по повышению их надежности и смягчению известных проблем, таких как предвзятость, токсичность и возможность дезинформации.

Меньшие модели, обученные на большем количестве токенов (т. е. фрагментов слов), легче переобучить и настроить для конкретных потенциальных вариантов использования продукта. Мы обучаем LLaMA 65B и LLaMA 33B на 1,4 трлн токенов . Наша самая маленькая модель, LLaMA 7B, обучена на одном триллионе токенов .

Как и другие большие языковые модели, LLaMA работает, беря последовательность слов в качестве входных данных и предсказывая следующее слово для рекурсивного создания текста. Для обучения нашей модели мы выбрали текст из 20 самых распространенных языков, ориентируясь на языки с латиницей и кириллицей.

Необходимы дополнительные исследования для устранения рисков предвзятости, токсичных комментариев и галлюцинаций в больших языковых моделях . Как и другие модели, LLaMA сталкивается с этими проблемами. В качестве базовой модели LLaMA предназначена для универсальности и может применяться во многих различных случаях использования, а не как точно настроенная модель, предназначенная для конкретной задачи. Поделившись кодом LLaMA, другим исследователям будет проще тестировать новые способы ограничения или устранения этих проблем в больших языковых моделях. В этой статье мы также приводим ряд эталонных оценок для оценки систематической ошибки и токсичности моделей, чтобы показать ограничения моделей и поддержать дальнейшие исследования в этой важной области.

Чтобы сохранить целостность и предотвратить неправильное использование, мы будем выпускать наши модели под некоммерческой лицензией, ориентированной на исследовательские варианты использования . Доступ к модели будет предоставляться в каждом конкретном случае академическим исследователям, лицам, связанным с правительством, гражданским обществом и академическими организациями, а также отраслевым исследовательским лабораториям по всему миру. Те, кто заинтересован в подаче заявки на доступ, могут найти ссылку на это приложение в нашем исследовательском документе.

Мы считаем, что все сообщество ИИ — академические исследователи, гражданское общество, политики и промышленность — должны работать вместе, чтобы разработать четкие руководящие принципы в отношении ответственного ИИ и, в частности, ответственных моделей больших языков. Мы с нетерпением ждем возможности узнать, что сообщество может узнать и в конечном итоге создать с помощью LLaMA.

Supongo que te gusta

Origin blog.csdn.net/sinat_37574187/article/details/131997720
Recomendado
Clasificación