Meta AI представляет LIMA! Сопоставимо с GPT-4, можно выровнять без RLHF!

Как только вчера вышла статья Meta AI+CMU, твиттер взорвался!

LIMA , используя только 1000 тщательно отобранных образцов для точной настройки 65B LLaMa без RLHF, производительность сравнима или даже лучше, чем у GPT-4!

Документ : LIMA: Less Is More for Alignment
Адрес : https://arxiv.org/pdf/2305.11206.pdf

Люди во всем мире уже давно пытаются «выровняться»! Чтобы согласовать реакцию предварительно обученной языковой модели с конкретными задачами и предпочтениями пользователя, для достижения производительности на уровне ChatGPT часто требуется настройка инструкций на наборе данных из миллионов примеров, а в последнее время — обучение с подкреплением на основе отзывов людей.

Эта статья направлена ​​на решение сложных задач выравнивания простым способом.Автор предлагает гипотезу поверхностного выравнивания (Superficial Alignment Hypothesis), которая рассматривает выравнивание как простой процесс: изучение стиля или формата, который взаимодействует с пользователями, чтобы показать, что во время предварительной подготовки Знания и умения уже приобретены!

Оказывается, достаточно простой тонкой настройки на небольшом количестве высококачественных примеров, чтобы конкурировать с сегодняшним ультрасовременным! Это также доказывает силу и важность процесса предварительной подготовки, который намного лучше, чем крупномасштабная настройка инструкций и обучение с подкреплением !

настройки эксперимента

Источник набора данных : из 1000 примеров практически реальных пользовательских запросов и высококачественных ответов 750 взяты с форумов сообщества, таких как Stack Exchange и wikiHow, а остальные 250 написаны вручную.

Тонкая настройка гиперпараметров : Тонкая настройка выполняется с использованием AdamW, где , , снижение веса равно 0,1. Без этапа разогрева начальная скорость обучения устанавливается равной и линейно уменьшается до . Размер пакета установлен на 32 примера (64 для меньшей модели), а тексты длиннее 2048 токенов обрезаются. Заметным отличием от прошлого является применение отсева на остаточном соединении, начиная с нижнего слоя и линейно увеличиваясь к последнему слою (меньшая модель ).

эталонная модель

Эксперименты сравнивают LIMA с пятью эталонными моделями:

(1)  Alpaca 65B  : тонкая настройка LLaMa 65B на 52 000 примеров в обучающем наборе Alpaca; (2)  DaVinci003 от OpenAI , большая языковая модель, обученная RLHF; (3) Google  Bard на основе PaLM ; (4) Anthropic Claude of  Claude . , параметры 52B, после интенсивного обучения (Конституционный ИИ) обучения на основе обратной связи ИИ; (5) GPT-4 OpenAI  после обучения RLHF в настоящее время считается самой передовой моделью большого языка.

результат

Основываясь на экспериментах с человеческими предпочтениями, LIMA превосходит как Alpaca 65B, так и DaVinci003! Хотя Alpaca 65B имеет в 52 раза больше тренировочных данных, чем LIMA, DaVinci003 использует RLHF, который считается лучшим методом выравнивания.

У Барда дела обстояли лучше, он давал лучший ответ, чем LIMA, в 42% случаев; однако это также означало, что LIMA работала так же хорошо, как Bard, по крайней мере, в 58% случаев.

Наконец, хотя Claude и GPT-4 в целом превосходят LIMA, во многих случаях LIMA дает лучшие ответы. По иронии судьбы, даже GPT-4 считает, что результаты LIMA лучше в 19% случаев.

Давайте насладимся отличным выступлением LLaMa. Синий текст — подсказка, слева — подсказка, связанная с примером в тренировочном наборе, посередине — подсказка, которой нет в тренировочном наборе, а справа — модель вызова для отклонения небезопасного поведения.

Качество и разнообразие данных важнее

Чтобы доказать  LIMA (Less Is More for Alignment) точку зрения, что меньше лучше, чем больше, автор изучил влияние разнообразия, качества и количества обучающих данных на модель с помощью экспериментов по абляции.

Было обнаружено, что качество данных оказало значительное влияние на качество генерации: разница в 0,5 балла между моделями, обученными с использованием отфильтрованных наборов данных, и моделями, обученными с использованием нефильтрованных источников данных. Однако удвоение количества примеров, как это ни удивительно, не улучшает качество ответов. Это говорит о том, что законы масштабирования выравнивания зависят не только от количества, но и от увеличения разнообразия подсказок при сохранении качества .

несколько раундов диалога

Однако может ли модель, настроенная только на 1000 однооборотных диалогов, работать с многооборотными диалогами?

На нулевых выборках ответы LIMA были на удивление связными, ссылаясь на информацию из предыдущих разговоров. Но было ясно, что распространение модели исчерпано: в 6 из 10 обменов LIMA не реагировала на сигнал в течение 3 взаимодействий.

Чтобы улучшить способность к диалогу, автор собрал 30 многоходовых диалоговых цепочек. Предварительно обученная модель LLaMa была настроена с использованием объединенных 1030 примеров, в результате чего появилась новая версия LIMA с 10 диалогами в реальном времени в одной и той же подсказке. Установлено, что после добавления этих 30 примеров качество генерации значительно улучшается, а доля качественных ответов увеличивается с 45,2% до 76,1%!

Ограниченное наблюдение за 30 образцами может задействовать способность модели к многооборотному диалогу , что также подтверждает гипотезу автора о поверхностном выравнивании, согласно которой эти способности приобретаются во время предварительного обучения.

Подведем итог

В разделе обсуждения автор указал на ряд проблем с этим методом: например, создание примера набора данных требует огромных умственных усилий, его трудно расширять, и он не так надежен, как на уровне продукта. модель и т.д.~

Сказав это, это исследование демонстрирует потенциал простых методов для решения сложных проблем выравнивания. Почти все знания о больших языковых моделях изучаются во время предварительного обучения, и обучение модели производить высококачественный вывод требует небольшой, но тщательной учебной настройки.

Простота - король!

Supongo que te gusta

Origin blog.csdn.net/qq_41771998/article/details/130825042
Recomendado
Clasificación