Нейронная система вывода «разделяй и властвуй» для сложного поиска изображений и текста | ACL 2023

Нажмите на синий текст

49d106022ddfeb157e9f9fd4824c226d.jpeg

Подписывайтесь на нас

AI TIME приглашает присоединиться всех энтузиастов искусственного интеллекта!

краткое введение:

Предварительно обученные модели визуального языка (VLM) достигают замечательной производительности при поиске текстовых изображений. Однако их производительность резко падала, когда они сталкивались с лингвистически сложным текстом, который им было трудно понять. Вдохновленная алгоритмом «разделяй и властвуй» и теорией двойного процесса, эта статья рассматривает лингвистически сложный текст как составной пропозициональный текст, состоящий из множества простых пропозициональных предложений, и предлагает сквозную нейронную структуру рассуждения «разделяй и властвуй», называется НДКР.

Он содержит три основных компонента:

1) Разделение: предложите генератор предложений на основе языковой модели, который делит тексты сложных предложений на простые предложения и генерирует соответствующие представления.

2) Покоряйте: используйте визуальный языковой интерактор на основе предварительно обученного VLM, чтобы реализовать взаимодействие между простыми предложениями и изображениями.

 3) Комбинация: Нейронное символическое рассуждение объединяет вышеуказанные состояния подрассуждения для получения окончательного решения с помощью методов нейронного логического рассуждения.

Согласно теории двойного процесса, визуальный языковой интерактор и нейросимволический мыслитель можно рассматривать как систему аналогового рассуждения 1 и систему логического рассуждения 2. Вся система будет интегрировать перцептивные вычислительные возможности модели визуального языка и возможности логического вывода нейронных символических операций верхнего уровня. Мы проводим обширные эксперименты с очень сложным набором данных поиска изображений IMAGECODE для описания контекста.

Экспериментальные результаты и анализ показывают, что NDCR значительно улучшает производительность сложных задач рассуждения изображения-текста.Возможно и эффективно внедрить нейронные символьные логические операции на основе предварительно обученных моделей визуального языка для решения сложных задач рассуждения изображения-текста.

Адрес статьи: https://arxiv.org/abs/2305.02265.

Адрес кода: https://github.com/YunxinLi/NDCR

01

 фон  

С момента появления предварительно обученных моделей визуального языка, таких как CLIP, Oscar и т. д., производительность задач поиска изображений и текста значительно улучшилась. Как показано на рисунке ниже, когда они сталкиваются со сложным длинным текстом и похожими изображениями, общая производительность резко падает. Предыдущие предварительно обученные модели поиска изображений и текста в основном обучались на большом количестве пар изображений и текста на уровне предложений с помощью методов контрастного обучения и обучения по языковой маске. Поэтому им трудно моделировать длинные тексты со сложным языком.

da60f858b173e98dce31a9df58458086.png

Разделяй и властвуй: стратегия обучения, которая работает путем разложения сложных проблем на более мелкие подзадачи, решения подзадач и их объединения для получения желаемого результата. Вдохновленные этим, столкнувшись со сложными сценариями поиска изображений и текста, мы можем разложить его сложное текстовое содержимое, извлечь простую семантическую информацию, вычислить статус обработки изображения и текста и результаты сопоставления субсемантических блоков и получить окончательный результат посредством соединения .

Теория двойного процесса человеческого мышления: Мыслительный процесс человеческого мозга состоит из двух систем мышления: Система 1 хороша в аналогиях; Система 2 способна к абстрактным логическим рассуждениям и подходит для решения сложных задач рассуждения. В сложных графических и текстовых сценах мы можем рассматривать предварительно обученную модель визуального языка как систему аналогового рассуждения, которая хороша для простого графического и текстового представления, выравнивания и слияния. На этой основе может быть внедрена логическая вычислительная система для решения сложных многомодальных задач рассуждения, таких как сложный поиск изображений и текста, для дальнейшего расширения возможностей рассуждения всей системы.

fc5db79c19285a1db1f65b9b4a594d9a.png

Основываясь на вышеизложенном, мы можем объединить идею «разделяй и властвуй» с теорией двойного процесса, рассматривать длинные тексты как сложные тексты логических предложений, разработать генератор предложений для разложения их на простые подпредложения и получить представление простых предложений. предложения. Во-вторых, предварительно обученная модель визуального языка используется в качестве перцептивной вычислительной системы 1 для получения статуса рассуждения и результатов сопоставления простых подпредложений на различных изображениях. На конъюнктивном этапе результатов вывода подпредложений вводится нейронная символьная вычислительная система 2 для получения окончательного результата логического вывода.

d755d1bd06b92d926965677f30db2323.png

02

Введение метода

Генератор предложений Генератор предложений представляет собой модель последовательности к последовательности, основанную на предварительно обученной языковой модели BART. Его цель — разложить сложный пропозициональный текст на представления простых пропозициональных предложений. Чтобы объяснить, что именно представляет собой простое пропозициональное представление, мы используем декодер BART для генерации соответствующих предложений на основе закодированного представления. Этот модуль сначала настраивается на задачу упрощения предложения, а затем применяется к этой задаче, и параметры не обновляются во время общего обучения модели NDCR.

66ddd7377087f17be66cc40e2792ee09.png

Система 1: Система взаимодействия предложения и изображения. Этот модуль предназначен для осуществления информационного взаимодействия визуального предложения, аналогично Системе 1. Этот модуль основан на обученной визуальной языковой модели OFA. Результатами этого модуля являются оценки соответствия предложения и изображения и состояния рассуждения. Мы вводим двухслойную структуру Трансформера для обоснования информационного взаимодействия между различными изображениями.

7dc78c12c00c36434290e65ae076d170.png

Система 2: Нейронное символическое рассуждение.Этот модуль отвечает за интеграцию состояний рассуждения и результатов простых предложений для получения окончательного решения сложных предложений на изображении. Он состоит из исполнителей отрицания и конъюнктивных операций. Отрицательный исполнитель используется для получения отрицательного состояния вывода. Конъюнктивная операция отвечает за получение результата вывода на основе совместных положительных и отрицательных состояний вывода.

3298f46f81223d426f8b98c5c39145e0.png

В частности, с помощью Системы1 мы можем получить состояние рассуждения H^{S_1} каждого простого предложения и соответствующую оценку соответствия предложения изображения P^{S_{1}}. Затем мы вводим нейронный исполнитель отрицания (двухуровневый MLP с функцией активации ReLU) для получения отрицания предложения и состояния рассуждения изображения, которое представлено как состояние рассуждения отрицания (H ^ {N}) каждого простого предложения. . Для этого мы рассматриваем H^{S_1} как положительное состояние вывода каждого простого предложения и передаем его отрицательному исполнителю, чтобы получить отрицательное состояние вывода H^{N}. Следовательно, входными и выходными данными исполнителя отрицания являются H^{S_1} и H^{N}. Мы также можем получить оценку соответствия (P^{N}), соответствующую отрицательному суждению, используя ту же голову прогнозирования, что и Система 1, для H^{N}. Важно отметить, что нам необходимо локально оптимизировать исполнитель отрицания, используя разработанную функцию потерь, чтобы он выполнял вычисления отрицания. В частности, мы позволяем расхождению KL между двумя распределениями P^{S_{1}} и P^{N} быть больше определенного заданного значения, чтобы локально оптимизировать отрицательного исполнителя. В то же время состояние отрицательного рассуждения будет введено в процесс операции соединения, чтобы получить окончательное состояние рассуждения всего нейронного символического рассуждения. Окончательная потеря соответствия и локальная потеря нейронного символического рассуждения совместно оптимизируют исполнителя отрицания.

Объединение Системы 1 и Системы 2. Этот процесс отвечает за интеграцию результатов рассуждений Системы 1 и Системы 2 в качестве окончательного решения. Выходные данные Системы 1 состоят из перцептивных вычислений простых предложений на изображениях. Выходные данные Системы 2 — это логический результат общего описания. При этом вся система использует преимущества как аналоговой системы 1, так и логической системы 2.

03

Результаты эксперимента

Как показано ниже на рисунке 1, показаны экспериментальные результаты для набора данных IMAGECODE. NDCR показывает лучшую производительность, чем другие эталонные модели. Кроме того, как показано на рисунке 2 ниже, мы также провели эксперименты по абляции всей модели, чтобы проверить производительность различных модулей. Благодаря экспериментальным результатам можно обнаружить, что нейронная система символического мышления действительно может улучшить общую способность модели к логическому мышлению.

72988aa8e78b6bcf9e21b197c8c4f3f2.png

fc4b24932ffc8f061660e4c06c3a26d5.png

Мы представляем два примера, чтобы продемонстрировать производительность модели. Из рисунка видно, что разработанная модель NDCR имеет определенную процессуальную интерпретируемость.Мы можем получить результаты расчетов различных модулей, чтобы облегчить анализ мыслительной способности всей системы.

f9440305813a735171aa82d3cae3cc24.png

d83819b35507846c9b477a7aa47d4c16.png

04

 в заключение  

В этой статье, вдохновленной алгоритмом «разделяй и властвуй» и теорией двойного процесса, мы представляем комплексную нейронную структуру вывода «разделяй и властвуй», называемую NDCR, для обработки сложного случая поиска изображений из лингвистически сложного текста. NDCR включает в себя генератор предложений, который делит текст сложного предложения на несколько простых предложений, а затем использует визуальный языковой интерактор для реализации взаимодействия между простыми предложениями и изображениями. Чтобы улучшить способность к логическому мышлению, мы разработали нейронное символическое устройство для получения результатов логического рассуждения на основе выходных данных интерактора визуального языка. Таким образом, NDCR выполняет аналогичные перцептивные вычисления в Системе 1 (Визуальный языковой интерактор) и логические рассуждения высокого уровня в Системе 2 (Нейронное символическое рассуждение). Наконец, мы объединяем результаты систем 1 и 2, чтобы получить окончательное решение.

Предлагаемый метод NDCR имеет некоторые ограничения, а именно:

1) Представление простых предложений, сгенерированных в генераторе предложений, имеет пространственное распределение, отличное от кодирования изображения, что повлияет на производительность его слитного представления. Хотя мы вводим информацию о рассуждениях составного пропозиционального текста, чтобы облегчить эту проблему, мы предпочитаем решить эту проблему путем улучшения способности понимания текста предварительно обученных VLM. Кроме того, использование предварительно обученных кодировщиков текста VLM для выполнения пропозициональной декомпозиции очень неэффективно, поскольку они плохо понимают дискурсивную структуру длинных текстов.

2) Изображения, полученные из видеокадров, очень похожи, а производительность модели в таких выборках существенно ниже человеческого уровня. В будущем мы сможем улучшить его с точки зрения моделирования различий изображений.

3) Результаты экспериментов показывают, что наш метод эффективен для логических рассуждений на примерах с описаниями средней длины, но для более длинных описаний еще есть возможности для совершенствования.

нести

Бодрствующий

Нажмите «Прочитать исходный текст», чтобы перейти к 00:41:05.

Вы можете просмотреть повтор!

Рекомендуемые статьи из прошлых выпусков

4998c74f3d1f6dd03ab96d587e758bd2.jpeg

Не забудьте подписаться на нас! Новые знания каждый день!

 Об ИИ ТАЙМ 

AI TIME был создан в 2019 году с целью продвигать дух научных спекуляций, приглашать людей из всех слоев общества исследовать основные вопросы теории искусственного интеллекта, алгоритмов и сценариев применения, усиливать столкновение идей и объединять мировых ученых в области искусственного интеллекта. отраслевые эксперты и энтузиасты, надеющиеся. В форме дискуссии мы исследуем противоречие между искусственным интеллектом и будущим человечества, а также исследуем будущее области искусственного интеллекта.

На сегодняшний день AI TIME пригласил более 1300 спикеров в стране и за рубежом, провел более 600 мероприятий, и его посмотрели более 6 миллионов человек.

78fd05b7e02a5f3381c84e85984961af.png

Я знаю тебя

заглянуть

ой

~

ba7c30c283d5579ab4f3fbd8ee409aed.gif

Нажмите , чтобы прочитать оригинальный текст  и посмотреть повтор!

Supongo que te gusta

Origin blog.csdn.net/AITIME_HY/article/details/132929705
Recomendado
Clasificación