Nvidia подключает GPT-4 к Minecraft без вмешательства человека, играя в игры в 15 раз быстрее!

Источник обмена технологиями Си Сяояо
| Сердце машины

Может ли игровая индустрия измениться?

Универсальная модель ИИ GPT-4 вошла в игру, представляющую собой открытый мир, и пройдена на высоком уровне.

Вчера VOYAGER, выпущенный Nvidia, немного шокировал круг ИИ.

VOYAGER — первый крупномасштабный игровой агент, управляемый моделями, который может учиться всю жизнь.Известный исследователь ИИ Андрей Карпати, только что вернувшийся в OpenAI, прочитал статью и сказал: «Я до сих пор помню, что примерно в 2016 году, в игра вроде "Minecraft" Насколько безнадежно разрабатывать ИИ-агента в такой среде?

Теперь стиль рисования изменился - правильный способ - забыть обо всем этом, сначала использовать все сетевые данные для обучения большой языковой модели (LLM), чтобы изучить знания о мире, рассуждения и использование инструментов (кодирование), а затем отпустить. таким образом решить проблему.

В конце концов Карпати пришел к выводу: если бы я прочитал этот «безградиентный» метод агента в 2016 году, я бы точно был в шоке.

Теперь, когда эксперты закончили говорить, остальные высказались довольно прямолинейно: похоже, мы на шаг ближе к общему искусственному интеллекту (AGI).

Некоторые люди также представляют себе сцену будущей игры, где NPC управляется большой моделью, и наглядно просматривается царство бурного и бурного развития всего сущего:

Мы знаем, что ChatGPT, ведущий технологический тренд, является текстовым интерактивным чат-роботом, и, поскольку GPT-4 имеет улучшенные мультимодальные возможности, люди часто предсказывают, что следующим шагом общего ИИ будет размещение этой большой модели в роботе. , чтобы он мог взаимодействовать с реальным миром.

В том, как роботы взаимодействуют с реальным/виртуальным миром, продвинутые большие модели, такие как GPT-4, открывают новую парадигму: «обучение» — это выполнение кода, а не градиентный спуск. «Обученная модель» — это библиотека кодов навыков итеративной комбинации VOYAGER, а не матрица чисел с плавающей запятой. Теперь мы доводим до предела возможности безградиентных архитектур.

В Minecraft VOYAGER быстро стал опытным исследователем, зарабатывая в 3,3 раза больше уникальных предметов, преодолевая в 2,3 раза больше расстояния и открывая ключевые вехи дерева технологий в 15,3 раза быстрее, чем предыдущие методы.

Nvidia имеет полностью открытый исходный код исследования VOYAGER:

Ссылка на статью:
https://arxiv.org/pdf/2305.16291.pdf

Домашняя страница проекта:
https://voyager.minedojo.org/

GitHub:
https://github.com/MineDojo/Voyager

Портал исследований и испытаний больших моделей

Портал ChatGPT (без стены, можно протестировать напрямую):

https://yeschat.cn

Портал GPT-4 (без стены, можно протестировать напрямую, в случае предупреждения браузера расширено/продолжить посещение):

https://gpt4test.com

Предыстория исследования

Создание воплощенных агентов с общими способностями к постоянному исследованию, планированию и развитию новых навыков в открытом мире — серьезная задача в области искусственного интеллекта. Традиционные подходы, использующие обучение с подкреплением и имитационное обучение, которые работают с примитивным поведением, могут быть сложными для систематического исследования, интерпретации и обобщения.

В последнее время агенты на основе крупномасштабных языковых моделей (LLM) добились прорыва в этих областях, используя знания о мире, инкапсулированные в предварительно обученных LLM, для создания согласованных планов действий или исполняемых политик. Они применяются к воплощенным задачам, таким как игры и робототехника, а также к задачам НЛП без представления. Однако эти агенты не учатся всю жизнь и не могут постепенно приобретать, обновлять, накапливать и передавать знания в течение длительного периода времени.

В отличие от большинства других игр, изучаемых в области ИИ, Minecraft не навязывает заранее определенной конечной цели или фиксированной сюжетной линии, а вместо этого предлагает уникальную игровую площадку с бесконечными возможностями. Эффективный агент непрерывного обучения должен иметь такие же способности, как и у игроков-людей:

(1) Предлагайте подходящие задачи в соответствии с его текущим уровнем навыков и состоянием мира, например, если он окажется в пустыне вместо леса, он научится добывать песок и кактусы, прежде чем ударять по железу;

(2) улучшать навыки на основе обратной связи с окружающей средой и сохранять освоенные навыки в памяти для повторного использования в аналогичных ситуациях в будущем (например, борьба с зомби похожа на борьбу с пауками);

(3) Постоянно исследуйте мир и находите новые задачи самостоятельно.

VOYAGER — это первый агент, управляемый LLM, воплощающий в себе обучение на протяжении всей жизни, который может вести исследования в Minecraft, осваивать широкий спектр навыков и постоянно делать новые открытия без вмешательства человека.

Исследователи использовали код в качестве пространства действия, а не низкоуровневые двигательные инструкции, потому что программы могут естественным образом представлять расширенные и комбинированные действия во времени, что имеет решающее значение для многих долгосрочных задач в Minecraft.

VOYAGER взаимодействует с «черным ящиком» LLM (GPT-4) посредством оперативного и контекстного обучения. Примечательно, что этот подход позволяет избежать необходимости доступа к параметрам модели и явного обучения или тонкой настройки на основе градиента.

В частности, VOYAGER пытается решать все более сложные задачи, представленные автоматическими курсами. Класс создан GPT-4 с общей целью «открыть как можно больше разных вещей». Этот подход можно рассматривать как контекстуальный поиск новизны. VOYAGER постепенно наращивает банк навыков, сохраняя образ действий, способствующий успешному решению задачи. Каждая программа индексируется вложением ее описания, которое может быть извлечено в подобных ситуациях в будущем. Сложные навыки могут быть синтезированы путем составления более простых программ, что позволяет способности VOYAGER быстро «усложняться» с течением времени, облегчая «катастрофическое забывание» в других методах непрерывного обучения.

метод

VOYAGER состоит из трех новых компонентов: (1) автоматизированного учебного плана для предложения открытых целей исследования, (2) библиотеки навыков для разработки все более сложных моделей поведения и (3) итеративного механизма подсказок для обеспечения самоконтролируемой генерации исполняемого кода. .

автоматический курс

В открытом режиме воплощенный агент будет сталкиваться с различными целевыми средами с разными уровнями сложности. Автоматизированная учебная программа Этот компонент предоставляет множество преимуществ для неограниченных исследований, обеспечивая сложный, но управляемый процесс обучения, стимулируя внутреннюю мотивацию агентов к обучению и исследованиям, основанную на любопытстве, и поощряя разработку общей и гибкой стратегии решения проблем.

Компонент автоматизированной учебной программы использует знания в масштабе Интернета, обеспечивая очень высокую адаптируемость и быстроту реагирования, заставляя GPT-4 обеспечивать постоянный поток новых задач или задач. Автоматический курс максимизирует исследование в зависимости от хода исследования и состояния агента. Класс генерируется GPT-4 на основе общей цели «открыть как можно больше разных вещей».

Библиотека навыков

Поскольку автоматизированные курсы продолжают представлять все более сложные задачи, VOYAGER нуждается в библиотеке навыков, на которых можно основывать свое обучение и развитие. Вдохновленная универсальностью, интерпретируемостью и повсеместностью программ, исследовательская группа представила каждый навык с помощью исполняемого кода, который позволял использовать временные расширения для выполнения конкретных задач, предложенных автоматизированной учебной программой.

В частности, верхняя часть библиотеки навыков используется для добавления новых навыков. Каждый навык индексируется вложением его описания, которое может быть извлечено в подобных ситуациях в будущем.

Внизу библиотеки умений находится поиск умений. Когда автоматический курс предлагает новую задачу, в хранилище навыков запрашивается 5 наиболее подходящих навыков. Сложные навыки можно синтезировать, написав более простые программы. Такой подход позволяет быстро увеличивать возможности VOYAGER с течением времени и устраняет проблему «катастрофического забывания».

Итеративный механизм подсказок

Исследовательская группа представляет итеративный механизм подсказок для самосовершенствования с помощью трех типов обратной связи, включая обратную связь с окружающей средой, ошибки выполнения и самопроверку для проверки успешности выполнения задач.

Изображение ниже (слева) является примером обратной связи с окружающей средой: GPT-4 понимает, что ему нужно еще 2 доски, прежде чем делать палки. Пример ошибки выполнения показан на изображении ниже (справа), где GPT-4 понимает, что ему следует скрафтить деревянный топор вместо кустового топора, так как кустовых топоров в Minecraft нет.

Изображение ниже является примером самопроверки. Передавая GPT-4 текущее состояние и задачу агента, GPT-4 действует как «рецензент» и информирует программу о том, выполнила ли она задачу. Кроме того, если задача не удалась, он «критикует» агента и предлагает варианты выполнения задачи.

эксперимент

В экспериментах исследователи систематически сравнивали VOYAGER и базовые показатели с точки зрения производительности исследования, мастерства дерева навыков, охвата карты и обобщения с нулевым выстрелом для новых задач в новых мирах.

Они используют API-интерфейсы OpenAI gpt-4-0314 и gpt-3.5-turbo-0301 для текста и API-интерфейс text-embedding-ada-002 для встраивания текста. Все температуры установлены на 0, кроме автоматической учебной программы, в которой необходимо использовать температуру = 0,1, чтобы стимулировать разнообразие задач. Среда моделирования построена на основе MineDojo и использует API-интерфейсы JavaScript Mineeflayer для управления двигателем.

Результаты оценки следующие:

Значительно большая способность исследовать

Преимущество VOYAGER выражается в его способности постоянно добиваться новых успехов (как показано на рисунке 1. Например, за 160 оперативных итераций было найдено 63 уникальных объекта, что в 3,3 раза превышает количество аналогичных проектов). С другой стороны, AutoGPT значительно отстает в обнаружении новых элементов, в то время как ReAct и Reflexion изо всех сил пытаются добиться значительного прогресса.

Мастерство дерева технологий

Дерево технологий в «Minecraft» проверяет способность агента создавать и использовать уровни инструментов. Продвижение по этому дереву (деревянные инструменты → каменные инструменты → железные инструменты → алмазные инструменты) требует от агентов приобретения систематических и конститутивных навыков.

В таблице 1 баллы представляют количество успешных испытаний из трех полных запусков. Цифры представляют собой среднее количество быстрых итераций за три испытания, чем меньше итераций, тем эффективнее метод. По сравнению с базовым уровнем, VOYAGER открывает уровни дерева в 15,3 раза быстрее (с точки зрения быстрых итераций), уровни камня в 8,5 раза быстрее, уровни железа в 6,4 раза быстрее, VOYAGER — единственный, кто открывает алмазы в модели уровня дерева технологий.

Обширный обход карты

По сравнению с базовой версией VOYAGER способен преодолевать в 2,3 раза большее расстояние и пересекать различные местности, при этом агенты базовой линии часто оказываются локализованными, что сильно затрудняет их способность открывать новые знания (рис. 7).

Обобщение с нулевым выстрелом для невидимых задач

Чтобы оценить обобщение с нулевым выстрелом, исследователи очистили библиотеку агента, сбросили ее в только что созданный мир и протестировали ее с невидимыми задачами. Для VOYAGER и AutoGPT они используют GPT-4, чтобы разбить задачу на ряд подцелей.

Как показано в Таблице 2 и на Рисунке 8, VOYAGER может непрерывно решать все задачи, в то время как базовый уровень не может решить ни одной задачи в течение 50 итераций запроса. Стоит отметить, что база навыков, созданная в результате обучения на протяжении всей жизни, не только повышает производительность VOYAGER, но и вносит улучшения в AutoGPT. Это демонстрирует, что библиотека навыков является универсальным инструментом, который можно легко использовать с другими подходами, эффективно выступая в качестве актива plug-and-play для повышения производительности.

Абляционное исследование

Исследователи исключили шесть вариантов дизайна (автоматическая учебная программа, набор навыков, обратная связь с окружающей средой, ошибки выполнения, самопроверка и GPT-4 для генерации кода) в VOYAGER и изучили их влияние на производительность разведки. Результаты показаны на рисунке 9.

VOYAGER превзошел все альтернативы, продемонстрировав критическую роль каждого компонента. Кроме того, GPT-4 значительно превосходит GPT-3.5 с точки зрения генерации кода.

Наконец, исследователи Nvidia также указали на некоторые ограничения и направления будущей работы.

Во-первых, это вопрос стоимости. API GPT-4 требует значительных затрат. Он в 15 раз дороже ГПТ-3,5. Однако VOYAGER нуждается в GPT-4 для достижения скачка в качестве генерации кода, которого не могут обеспечить ни GPT-3.5, ни LLM с открытым исходным кодом.

Во-вторых, несмотря на итеративный механизм подсказок, бывают случаи, когда агент застревает и не может сгенерировать правильные навыки. Автоматический курс позволяет повторить задачу позже. Иногда модуль самопроверки может дать сбой, например, не распознав строку паука как успешный сигнал для победы над пауком.

Затем возникает проблема «иллюзии» больших моделей. Иногда автоматизированная учебная программа будет предлагать задачи, которые невозможно выполнить, например, попросить агента сделать «бронзовый меч» или «бронзовый нагрудник», которых нет в игре. Галлюцинации также могут возникать во время генерации кода, например, GPT-4 имеет тенденцию использовать камешки в качестве топлива, что является неэффективным источником топлива в играх. Кроме того, он может вызывать функции, которых нет в необработанном API предоставленного элемента управления, что приводит к неправильному выполнению кода. Исследователи считают, что усовершенствования модели GPT API и новые методы тонкой настройки LLM с открытым исходным кодом позволят преодолеть эти ограничения в будущем.

Для получения более подробной информации об исследовании, пожалуйста, обратитесь к оригинальной статье.

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/130919471
Recomendado
Clasificación