Популярные статьи августа | Станет ли AI Agent будущим направлением развития больших моделей?

Если бы мне пришлось охарактеризовать прошлый август одним словом, то это было бы «Агент»!

Началась вторая половина индустрии больших моделей, и крупные производители выразили намерение выйти на «агентский» рынок. Андрей Карпати, один из основателей OpenAI, сказал, что по сравнению с крупными моделями OpenAI в настоящее время фокусируется на внутренней области агентов. Amazon также анонсировала новые функции агентов Amazon Bedrock, и более ранний Стэнфордский «Город ИИ» также является проявлением «Агент».

В августе команда ChatGLM Университета Цинхуа выпустила инструмент оценки возможностей AI-агента AgentBench; команда Hillhouse School of Artificial Intelligence Китайского университета Жэньминь опубликовала обзорную статью об AI-агенте «A Survey on LLM-based Autonomous Агенты»; команда SenseTime предложила инструмент специально для структурированной среды, адаптированной для агентов искусственного интеллекта на основе LLM.

Конечно, помимо вышеперечисленной работы, есть еще Code Llama, самый мощный инструмент кодирования в истории Meta с открытым исходным кодом, 38 учреждений, более 200 документов и команда под руководством Йошуа Бенджио для обзора научных открытий в эпоха ИИ и т. д.

Давайте взглянем.

1. Code Llama: модели открытого фундамента для кода

Meta выпустила набор крупномасштабных языковых моделей под названием Code Llama, который основан на Llama 2 и обеспечивает код с современной производительностью, возможностями заполнения, поддержкой больших входных контекстов и возможностями нулевого выполнения инструкций. . Мы предоставляем несколько вариантов для покрытия широкого спектра приложений: базовая модель (Code Llama), экспертиза Python (Code Llama — Python) и модель следования инструкциям (Code Llama — Instruct) с параметрами 7 миллиардов и 13 миллиардов соответственно и 34. миллиард. Все модели обучены на последовательностях из 16 тысяч токенов и демонстрируют улучшение входных данных с количеством токенов до 100 тысяч. Варианты Code Llama 7B и 13B и Code Llama — Instruct поддерживают заполнение на основе окружающего содержимого. Code Llama демонстрирует высочайшую производительность в нескольких тестах кода, получив оценки 53% и 55% в HumanEval и MBPP соответственно. Примечательно, что Code Llama — Python 7B превосходит Llama 2 70B на HumanEval и MBPP, в то время как все модели Meta превосходят любую другую общедоступную модель на MultiPL-E. Мы выпускаем Code Llama под разрешительной лицензией, которая позволяет проводить исследования и коммерческое использование.

Ссылка на документ: https://www.aminer.cn/pub/64e82e45d1d14e646633f5aa .

2. Научные открытия в эпоху искусственного интеллекта

В этой статье обсуждаются прорывы ИИ в научных открытиях за последнее десятилетие, включая такие методы, как обучение с самоконтролем и геометрическое глубокое обучение. Эти методы могут помочь ученым ускорить и улучшить исследования за счет выдвижения гипотез, планирования экспериментов, сбора и интерпретации больших объемов данных, а также получения информации, которая может быть невозможна с помощью традиционных научных методов. Кроме того, методы генеративного искусственного интеллекта могут создавать такие конструкции, как низкомолекулярные лекарства и белки, путем анализа различных шаблонов данных, таких как изображения и последовательности. В этой статье обсуждается, как эти методы помогают ученым на протяжении всего научного процесса, а также основные вопросы, которые остаются, несмотря на эти достижения. И разработчикам, и пользователям инструментов искусственного интеллекта необходимо лучше понимать, когда эти методы необходимо улучшить, а также проблемы, связанные с качеством данных и управлением ими. Эти проблемы охватывают научные дисциплины и требуют разработки фундаментальных алгоритмических методов, которые могут способствовать научному пониманию или приобретаться автономно, что делает их ключевым направлением инноваций в области ИИ. В этой статье рассматриваются достижения в области искусственного интеллекта за последнее десятилетие, обсуждается, как системы ИИ могут помочь научному процессу, а также основные проблемы, которые остаются, несмотря на достижения.

Ссылка на документ: https://www.aminer.cn/pub/64cb4fb63fda6d7f06fecb8b

3. AgentBench: оценка LLM как агентов

В документе представлен многомерный эволюционный тест под названием AgentBench, который используется для оценки способности моделей большого языка (LLM) выступать в качестве агентов. Поскольку LLM становятся все более интеллектуальными и автономными, выполняя практические задачи реального мира, выходящие за рамки традиционных задач обработки естественного языка, становится актуальным оценить возможности LLM как агентов при решении сложных задач в интерактивных средах. В документе было протестировано 25 LLM (включая API и модели с открытым исходным кодом) и обнаружено, что лучшие коммерческие LLM очень хорошо работают в качестве агентов в сложных средах, но между ними и конкурентами с открытым исходным кодом существует значительный разрыв в производительности. Этот тест является частью текущего проекта по систематической оценке LLM с более широким охватом и более глубоким рассмотрением.

Ссылка на документ: https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4af3.

4. Все в одном: многозадачные подсказки для графовых нейронных сетей

В данной статье изучается проблема подсказки графовых нейронных сетей (GNN) для решения проблемы несовместимости методов предварительной обработки и точной настройки при обработке различных графовых задач. Хотя методы предварительной обработки и точной настройки могут облегчить проблему отсутствия аннотаций графа, разнообразие задач на уровне узла, ребра и уровне графа делает методы предварительной обработки часто непригодными для решения нескольких задач. Это может привести к «негативной миграции» для некоторых приложений, что приведет к снижению производительности.

В статье используется концепция подсказки в обработке естественного языка (НЛП) и предлагается новый метод многозадачной подсказки в области графов. В частности, мы сначала унифицируем графические и языковые подсказки, используя подсказки, структуры токенов и режимы вставки, чтобы концепцию подсказок в НЛП можно было легко применить к полю графа. Затем, чтобы еще больше сократить разрыв между различными графовыми задачами и современными стратегиями предварительной обработки, мы глубоко изучаем пространство задач различных графовых приложений и реструктурируем последующие проблемы в задачи уровня графа. Наконец, мы используем метаобучение для эффективного обучения инициализации многозадачных подсказок, что делает нашу структуру подсказок более надежной и универсальной для различных задач. Мы проводим обширные эксперименты, и результаты показывают, что наш метод лучше справляется с множеством тестовых задач.

Ссылка на документ: https://www.aminer.cn/pub/64a63bbad68f896efaec478f .

5. Надежные LLM: обзор и рекомендации по оценке согласованности больших языковых моделей.

Аннотация этой статьи посвящена оценке доверия к моделям большого языка (LLM), чтобы гарантировать, что модель ведет себя в соответствии с намерениями человека. В документе представлен комплексный опрос, охватывающий ключевые аспекты оценки надежности LLM, включая надежность, безопасность, справедливость, устойчивость к злоупотреблениям, объяснимость и способность рассуждать, соответствие социальным нормам и надежность, в общей сложности разделен на 7 основных категорий и 29 подкатегорий. . Далее в документе выбираются 8 подкатегорий для углубленного исследования и проводятся исследования по нескольким широко используемым LLM. Измерения показывают, что в целом более последовательные модели работают лучше с точки зрения общей достоверности. Однако эффекты выравнивания сильно различаются в зависимости от разных категорий достоверности, что подчеркивает важность более детального анализа, тестирования и постоянного улучшения LLM. Изучая эти ключевые аспекты, статья призвана предоставить ценную информацию и рекомендации для практиков в этой области. Понимание и решение этих проблем имеет решающее значение для достижения надежного и этичного внедрения LLM в различных приложениях.

Ссылка на документ: https://www.aminer.cn/pub/64d5b2153fda6d7f060d00a4 .

6. AudioLDM 2: Обучение целостной генерации звука с помощью предварительной подготовки с самоконтролем

В этом документе представлена ​​структура генерации звука под названием AudioLDM 2, которая использует один и тот же метод обучения для обработки речи, музыки и генерации звуковых эффектов. Платформа вводит универсальное представление звука, называемое языком аудио (LOA), и любой звук может быть преобразован в LOA в соответствии с AudioMAE, моделью обучения предварительно обученному представлению с самоконтролем. В процессе генерации модель GPT-2 используется для преобразования любой модальности в LOA, а обучение генерации звука с самоконтролем выполняется на модели скрытой диффузии, обусловленной LOA. Эта структура, естественно, дает такие преимущества, как возможности контекстного обучения и многоразовые предварительно обученные модели AudioMAE с самоконтролем и модели скрытой диффузии. Эксперименты демонстрируют современную производительность этого подхода по сравнению с предыдущими методами по основным показателям преобразования текста в аудио, текста в музыку и преобразования текста в речь.

Ссылка на документ: https://www.aminer.cn/pub/64d5b21d3fda6d7f060d0db5 .

7. Самовыравнивание с обратным переводом инструкций

В этой статье представлен масштабируемый метод, называемый «обратной трансляцией инструкций», для построения высококачественных языковых моделей, следующих инструкциям. Этот метод обеспечивает самовыравнивание за счет автоматического назначения соответствующих инструкций рукописному тексту. Во-первых, языковая модель точно настраивается на небольшом объеме исходных данных и заданном веб-корпусе. Затем исходная модель используется для генерации подсказок инструкций по самостоятельному дополнению веб-документов, и из этих кандидатов выбираются высококачественные примеры для самостоятельного курирования. Наконец, данные снова используются для точной настройки модели, в результате чего модель становится более мощной. После двух итераций этот метод превзошел все базовые модели LLaMa, не опирающиеся на данные дистилляции, в рейтинге Альпака, доказав, что эффект самовыравнивания очень эффективен.

Ссылка на документ: https://www.aminer.cn/pub/64d9a6873fda6d7f061d37b9 .

8. Научиться определять критические состояния для подкрепления обучения с помощью видео

В этой статье в основном изучается, как научиться определять ключевые состояния по видео для применения в обучении с подкреплением. Недавнее исследование глубокого обучения с подкреплением (DRL) указывает на то, что алгоритмическую информацию о хороших политиках можно извлечь из офлайн-данных, в которых отсутствует явная информация о выполненных действиях. Например, видео людей или роботов могут содержать много неявной информации о полезных последовательностях действий, но машина DRL, которая хочет получить прибыль от просмотра этих видео, должна сначала научиться самостоятельно распознавать и понимать соответствующие состояния/действия/вознаграждения. Не полагаясь на достоверные аннотации, наш новый метод «Идентификатор глубинного состояния» учится предсказывать вознаграждение из эпизодов, закодированных в виде видео. Затем он использует анализ чувствительности на основе маски для извлечения/идентификации важных критических состояний. Обширные эксперименты демонстрируют потенциал нашего подхода в понимании и улучшении поведения агентов.

Ссылка на документ: https://www.aminer.cn/pub/64dc49903fda6d7f06389d06 .

9. Сознание в искусственном интеллекте: выводы науки о сознании

Статья называется «Сознание в искусственном интеллекте: идеи науки о сознании». В статье исследуется вопрос о том, могут ли нынешние или будущие системы искусственного интеллекта быть сознательными. Это научный вопрос, вызывающий растущую общественную озабоченность. В статье пропагандируется и иллюстрируется строгий и эмпирически обоснованный подход к изучению сознания ИИ, основанный на исчерпывающей оценке существующих систем ИИ и противоречащий нашим наиболее обоснованным нейробиологическим теориям сознания. В статье рассматриваются несколько основных научных теорий сознания, включая теорию рекуррентной обработки данных, теорию глобального рабочего пространства, теорию высшего порядка, прогнозирующую обработку и теорию моделей внимания. Из этих теорий мы извлекаем «индикаторные свойства» сознания и формулируем их в вычислительных терминах, чтобы мы могли оценивать системы ИИ на основе этих свойств. Мы оцениваем несколько последних систем искусственного интеллекта, используя эти метрические свойства, и обсуждаем, как будущие системы могут достичь этих свойств. Наш анализ показывает, что нынешние системы ИИ не обладают сознанием, но также показывает, что не существует очевидных препятствий для создания сознательных систем ИИ.

Ссылка на документ: https://www.aminer.cn/pub/64e2e14f3fda6d7f0646637a

10. Диверсификация искусственного интеллекта: к творческим шахматам с AlphaZero

В этой статье исследуется, может ли искусственный интеллект получить пользу от наличия творческих механизмов принятия решений при решении сложных задач. Исследователи решили сложные проблемы, создав разнообразную команду систем искусственного интеллекта для игры в шахматы и используя методы поведенческого разнообразия, чтобы увеличить диапазон генерируемых ими идей, а затем отобрать наиболее многообещающие. Исследование показало, что команды, использующие различные системы ИИ, могут играть в шахматы более разнообразными способами и решать в два раза больше головоломок, чем команды, состоящие из отдельных систем ИИ. Кроме того, каждый член команды демонстрирует различный опыт на разных стартах, и используя субаддитивное планирование для выбора участников для каждого старта, можно значительно улучшить производительность всей команды. Результаты показывают, что разнообразие является ценным активом для решения сложных вычислительных задач и что вознаграждение за разнообразие в командах систем искусственного интеллекта так же важно, как вознаграждение за разнообразие в человеческих командах.

Ссылка на документ: https://www.aminer.cn/pub/64e2e14f3fda6d7f06466555 .

11. ProAgent: создание упреждающего совместного искусственного интеллекта с использованием больших языковых моделей

В этом документе представлена ​​новая структура под названием ProAgent, которая использует большие языковые модели, чтобы помочь агентам быть более дальновидными и активными в сотрудничестве с людьми или другими агентами. Традиционные методы сотрудничества агентов в основном полагаются на методы обучения, а обобщение политики в значительной степени зависит от прошлых взаимодействий с конкретными товарищами по команде, что ограничивает способность агента корректировать свою стратегию при столкновении с новыми товарищами по команде. ProAgent может предвидеть будущие решения товарищей по команде и разрабатывать для себя расширенные планы, демонстрируя отличные способности к совместному рассуждению и способность динамично адаптироваться для повышения эффективности сотрудничества с товарищами по команде. Кроме того, структура ProAgent является модульной, интерпретируемой и может быть легко интегрирована в различные сценарии координации. Результаты экспериментов показывают, что ProAgent превосходит пять методов обучения, основанных на самостоятельных играх и популяционном обучении, в рамках Overcook-AI. В сотрудничестве с моделями человеческих агентов его производительность улучшается в среднем более чем на 10%, превосходя текущее состояние продвинутый метод COLE. Этот прогресс распространяется на различные сценарии, включающие взаимодействие с агентами ИИ и противниками-людьми с разными характеристиками. Эти результаты вдохновляют будущие исследования сотрудничества человека и робота.

Ссылка на документ: https://www.aminer.cn/pub/64e5849c3fda6d7f063af3cd .

12. Исследование автономных агентов на основе больших языковых моделей.

Эта статья представляет собой обзор исследований автономных агентов, основанных на больших языковых моделях. Предыдущие исследования часто были сосредоточены на обучении агентов в изолированной среде с ограниченными знаниями, что далеко от человеческого процесса обучения, что затрудняет для агентов принятие решений, подобных человеческим. В последние годы большие языковые модели (LLM) продемонстрировали большой потенциал в достижении интеллекта человеческого уровня за счет приобретения больших объемов сетевых знаний. Это вызвало всплеск исследований автономных агентов на основе LLM. Чтобы в полной мере использовать потенциал LLM, исследователи разработали различные архитектуры агентов для разных приложений. В этой статье мы проводим систематический обзор этих исследований в целом. В частности, мы фокусируемся на создании агентов на основе LLM, для чего мы предлагаем единую структуру, охватывающую большую часть предыдущей работы. Кроме того, мы предоставляем обзор различных применений агентов искусственного интеллекта на основе LLM в области социальных, естественных и инженерных наук. Наконец, мы обсуждаем общие стратегии оценки агентов искусственного интеллекта на основе LLM. Основываясь на предыдущих исследованиях, мы также предлагаем несколько задач и будущих направлений в этой области.

Ссылка на документ: https://www.aminer.cn/pub/64e5849c3fda6d7f063af42e .

13. SeamlessM4T — многоязычный и мультимодальный машинный перевод

В этом документе представлена ​​крупномасштабная многоязычная и мультимодальная модель машинного перевода под названием SeamlessM4T, которая может помочь людям переводить речь между 100 языками. В то время как текстовые модели недавно превзошли охват перевода на 200 языков, унифицированные модели речевого перевода еще не достигли аналогичного прогресса. Для решения этой проблемы авторы предлагают единую модель, которая поддерживает перевод речи в речь, перевод речи в текст, перевод текста в речь, перевод текста в текст и автоматическое распознавание речи. Они использовали 1 миллион часов аудиоданных открытой речи для изучения речевых представлений с самоконтролем и создали мультимодальный автоматически выравниваемый корпус перевода речи. Путем фильтрации и помеченных человеком и псевдоразмеченных данных они разработали первую многоязычную систему, которая может переводить на английский язык и обратно в речь и текст. По оценке FLEURS, SeamlessM4T получил оценку BLEU, которая на 20 % превышает предыдущий лучший результат в области прямого перевода речи в текст. По сравнению с мощной каскадной моделью, SeamlessM4T улучшает 1,3 балла BLEU при переводе речи в текст и на 2,6 балла ASR-BLEU при переводе речи в речь. После тестирования на надежность система показала лучшие результаты при работе с фоновым шумом и сменой динамиков при выполнении задач преобразования речи в текст. Авторы также оценили трансляционную безопасность SeamlessM4T с точки зрения гендерной предвзятости и дополнительной токсичности. Наконец, они выложили все свои материалы в открытый доступ на GitHub, чтобы больше людей могли их изучить и использовать.

Ссылка на документ: https://www.aminer.cn/pub/64e5849c3fda6d7f063af4d6.

14. ИнструкцияGPT-4: парадигма из 200 инструкций для точной настройки MiniGPT-4.

Эта статья иллюстрирует проблемы, возникающие при выполнении больших мультимодальных языковых моделей при выполнении инструкций. Эти модели приобретают способность следовать инструкциям посредством двухэтапного процесса обучения: сначала предварительное обучение на парах изображение-текст, а затем точная настройка на контролируемых данных визуально-вербальных инструкций. Недавние исследования показывают, что большие языковые модели могут достигать удовлетворительных результатов даже при ограниченном количестве высококачественных инструкций, следующих за данными. В статье представлена ​​ИнструкцияGPT-4, модель, настроенная только на небольшом наборе данных из 200 примеров, что эквивалентно примерно 6% данных, следующих за инструкциями, используемых в наборе данных, согласованном с MiniGPT-4. Авторы сначала предлагают несколько показателей для измерения качества данных мультимодальных инструкций. На основе этих показателей они предлагают простой, но эффективный селектор данных, который может автоматически идентифицировать и фильтровать визуально-лингвистические данные низкого качества. Приняв этот подход, InstructionGPT-4 превосходит исходный MiniGPT-4 в различных оценках (например, визуальный ответ на вопрос, предпочтение GPT-4). В целом результаты показывают, что меньшие по размеру, но более качественные данные для точной настройки инструкций могут эффективно позволить мультимодальным крупномасштабным языковым моделям обеспечивать лучший результат.

Ссылка на документ: https://www.aminer.cn/pub/64e6d5bd3fda6d7f0652c7f8.

15. Обучение с подкреплением для генеративного ИИ: опрос

Аннотация этой статьи посвящена применению обучения с подкреплением в генеративном искусственном интеллекте. Генеративный искусственный интеллект имеет давнее значение в области машинного обучения и может повлиять на многие области применения, такие как генерация текста и компьютерное зрение. Основным методом обучения генеративных моделей является оценка максимального правдоподобия, которая заставляет учащегося фиксировать и аппроксимировать целевое распределение данных за счет уменьшения разницы между распределением модели и целевым распределением. Однако этот подход не может удовлетворить все ожидания пользователей в отношении генеративных моделей. Обучение с подкреплением, как конкурентный вариант, может использовать новые сигналы, создавая новые цели, тем самым вводя новые обучающие сигналы, демонстрируя свою сильную и гибкую адаптируемость и извлекая выгоду из различных точек зрения (например, состязательное обучение, ручное проектирование правил и моделей вознаграждения за обучение) для включения человеческие индуктивные предубеждения. В результате обучение с подкреплением стало популярной областью исследований и раздвинуло границы проектирования моделей и применения генеративного искусственного интеллекта. Хотя в последние годы были проведены некоторые исследования в различных областях применения, цель данного обзора — предоставить всесторонний обзор прогресса за последние годы и охватывает различные области применения. Мы предоставляем строгую классификацию этой области с адекватным охватом различных моделей и приложений. Примечательно, что мы также исследуем быстро растущую область крупномасштабных языковых моделей. Наконец, мы завершаем этот обзор, показывая потенциальные направления, которые могут устранить ограничения существующих моделей и расширить границы генеративного ИИ.

Ссылка на документ: https://www.aminer.cn/pub/64ed716d3fda6d7f0658aa83 .

16. Большие языковые модели для поиска информации: опрос

Аннотация этой статьи посвящена поиску информации с использованием больших языковых моделей. Информационно-поисковые системы стали основным способом получения информации в нашей повседневной жизни, а также служат неотъемлемой частью систем диалога, вопросов и ответов и рекомендаций. Траектория развития поиска информации началась с методов, основанных на терминах, и постепенно развивалась в сочетании с передовыми нейронными моделями. Хотя нейронные модели превосходно улавливают сложные контекстуальные сигналы и семантические нюансы, они по-прежнему сталкиваются с такими проблемами, как нехватка данных, интерпретируемость и генерация контекстуально обоснованных ответов, которые могут быть неточными. Эта разработка требует объединения традиционных методов, таких как методы разреженного поиска на основе терминов, с современными нейронными архитектурами, такими как языковые модели с мощными возможностями понимания языка. Появление крупномасштабных языковых моделей (таких как ChatGPT и GPT-4) произвело революцию в области обработки естественного языка благодаря их превосходным возможностям понимания языка, генерации, обобщения и рассуждения. Поэтому недавние исследования пытаются использовать большие языковые модели для улучшения систем поиска информации. Учитывая быстрое развитие этого направления исследований, необходимо обобщить существующие подходы и предоставить более глубокое понимание посредством всестороннего обзора. В этом обзоре мы подробно рассмотрим конвергенцию крупномасштабных языковых моделей и систем поиска информации, включая такие ключевые аспекты, как переписчики запросов, средства извлечения, сортировщики и устройства чтения. Кроме того, мы изучаем перспективные направления в этой расширяющейся области.

Ссылка на документ: https://www.aminer.cn/pub/64dafb293fda6d7f064e2d9e .

17. TPTU: Планирование задач и использование инструментов агентов искусственного интеллекта на основе больших языковых моделей.

В этой статье в основном обсуждаются возможности больших языковых моделей (LLM) в различных практических приложениях, но также отмечается, что присущих LLM генеративных возможностей может быть недостаточно для решения сложных задач, требующих сочетания планирования задач и внешних инструментов. Поэтому автор предлагает структурированную структуру для агентов искусственного интеллекта на основе LLM и разрабатывает два разных типа агентов (одношаговый агент и агент последовательности) для выполнения процесса рассуждения. Затем авторы создают экземпляр инфраструктуры с использованием различных LLM и оценивают возможности планирования задач и использования инструментов (TPTU) в типичных задачах. Освещая ключевые выводы и проблемы, статья призвана предоставить исследователям и практикам полезный ресурс для использования возможностей LLM в приложениях искусственного интеллекта. Исследование подчеркивает огромный потенциал этих моделей, а также указывает на области, где необходимы дополнительные исследования и улучшения.

Ссылка на документ: https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3db6.

18. Кумулятивные рассуждения с использованием больших языковых моделей

В этой статье предлагается новый метод под названием «Кумулятивное мышление» (CR), который использует большие языковые модели для моделирования процесса человеческого мышления кумулятивным и итеративным способом. Разбивая задачи на более мелкие компоненты, подход CR упрощает процесс решения проблем, делая его более осуществимым и эффективным. В задачах логического рассуждения метод CR работает лучше, чем существующие методы, с улучшением на 9,3% и достигает удивительной точности 98,04% на отфильтрованном наборе вики-данных FOLIO. В контексте игры с 24 очками метод CR достигает точности 94%, что на 20% лучше, чем предыдущий современный метод.

Ссылка на документ: https://www.aminer.cn/pub/64d30f353fda6d7f06f6cb27 .


Нажмите здесь, чтобы просмотреть: Руководство по использованию ChatPaper.
Нажмите здесь, чтобы войти: Вход в ChatPaper.

Guess you like

Origin blog.csdn.net/AI_Conf/article/details/132801538