【EMSANet2022】Эффективный многозадачный анализ сцены RGB-D для внутренних помещений

Эффективный многозадачный анализ сцены RGB-D для внутренних помещений

Эффективный многозадачный анализ сцены RGB-D в помещении


arXiv:2207.04526v1 [cs.CV] 10 июля 2022 г.
Адрес статьи: https://arxiv.org/abs/2207.04526
Кодовый адрес: https://github.com/TUI-NICR/EMSANet


Краткое содержание

  Понимание семантической сцены имеет решающее значение для мобильных агентов, действующих в различных средах. Хотя семантическая сегментация предоставила много информации, подробности об отдельных объектах, а также сценах в целом отсутствуют, но они необходимы для многих реальных приложений. Однако, учитывая ограниченные вычислительные возможности и возможности аккумулятора мобильных платформ, решение нескольких задач по отдельности обходится дорого и не может быть выполнено в режиме реального времени. В этой статье мы предлагаем эффективный многозадачный метод анализа сцены RGB-D (EMSANet), который выполняет одновременную семантическую и экземплярную сегментацию (панорамную сегментацию), оценку ориентации экземпляра и классификацию сцены. Мы показываем, что все задачи могут быть выполнены в реальном времени на мобильных платформах с использованием единой нейронной сети без ухудшения производительности — напротив, отдельные задачи выигрывают друг от друга. Чтобы оценить наш многозадачный подход, мы расширили аннотации общих наборов данных RGB-D для помещений NYUv2 и SUNRGB-D для сегментации и оценки ориентации. Насколько нам известно, мы первые, кто предоставил результаты такой комплексной многозадачной установки для анализа сцен внутри помещений на NYUv2 и SUNRGB-D.

  Индексные термины – многозадачное обучение, оценка направления, панорамная сегментация, классификация сцен, семантическая сегментация, NYUv2, SUNRGB-D


1. Введение

Рисунок 1. Прогнозы предлагаемой нами эффективной многозадачной сети анализа сцен (EMSANet), которая одновременно выполняет панорамную сегментацию, оценку ориентации и классификацию сцен. Благодаря NVIDIA Jetson AGX Xavier со скоростью 24 кадра в секунду он хорошо подходит для мобильных робототехнических приложений. Цвета семантических меток см. на рис. 4. Изменения цвета указывают на отдельные экземпляры.

  В компьютерном зрении понимание семантической сцены часто приравнивается к семантической сегментации, поскольку оно позволяет получить точные знания о структуре сцены путем присвоения семантической метки каждому пикселю изображения. Однако этих знаний недостаточно для агентов наших текущих исследовательских проектов МОРФИЯ и КОГУМАНИКА, которым необходимо действовать автономно в своей среде. Представьте, что мобильный робот должен перейти к семантической сущности, например , к конкретному стулу среди набора стульев в гостиной, как показано на рисунке 1. Выполнение задачи такого высокого уровня требует более широкого понимания сцены. Во-первых, даже имея семантический граф окружающей среды [1], роботу все равно необходимо знать, какая часть его среды принадлежит гостиной. Впоследствии ему необходимо уметь различать отдельные экземпляры одной и той же смысловой категории и, наконец, чтобы подойти к стулу с правильной стороны, необходима его ориентация.

  В этой статье мы предлагаем подход под названием «Эффективная многозадачная сеть анализа сцены» (EMSANet) для решения всех вышеперечисленных проблем при выполнении задачи такого высокого уровня. Наш метод позволяет классифицировать сцены, семантическую сегментацию и сегментацию экземпляров (паноптическую сегментацию), а также оценивать ориентацию экземпляров. Однако, учитывая ограниченность вычислительных и аккумуляторных ресурсов мобильных платформ, решение всех этих задач по отдельности является дорогостоящим и не может быть осуществлено в реальном времени. Поэтому мы разрабатываем наш метод для решения всех вышеперечисленных задач с использованием единой эффективной многозадачной сети. Наш метод расширяет ESANet [2], эффективный метод семантической сегментации, добавляя дополнительные головки для обработки панорамной сегментации, оценки ориентации экземпляра и классификации сцен. ESANet обрабатывает в качестве входных данных как данные RGB, так и данные о глубине. Как показано в [2], особенно для помещений, данные о глубине предоставляют дополнительную геометрическую информацию, которая помогает анализировать загроможденные внутренние сцены. В этой статье мы показываем, что это также верно для панорамной сегментации, оценки ориентации экземпляра и классификации сцен. Поэтому наш метод также опирается на данные RGB и глубины.

  Обучение такому многозадачному подходу требует комплексных наборов данных. Однако, насколько нам известно, ни один реальный набор данных RGB-D для помещений не содержит достоверных аннотаций для всех вышеперечисленных задач. Поэтому мы добавляем аннотации для сегментации экземпляров и оценки ориентации экземпляров в существующие наборы данных NYUv2 [3] и SUNRGB-D [4]. Используя эти данные, мы сначала обучаем базовый уровень одной задачи, а затем объединяем несколько задач в несколько многозадачных настроек. Наши эксперименты показывают, что все задачи можно решать в режиме реального времени с помощью одной нейронной сети без ухудшения производительности — напротив, отдельные задачи усиливают друг друга. Наш полностью многозадачный подход достигает 24. Шутер от первого лица на мобильной платформе NVIDIA Jetson AGX Xavier с достижением высочайшей производительности. Поэтому он очень подходит для практического применения на мобильных платформах.

  Подводя итог, наш основной вклад заключается в следующем.

  • Эффективный многозадачный метод RGB-D для панорамной сегментации, классификации сцен и оценки ориентации экземпляра (EMSANet), включая новое кодирование ориентации экземпляра.
  • Богатые аннотации NYUv2 и SUNRGB-D.
  • Подробные эксперименты по производительности и соответствующей пропускной способности в одно- и многозадачных настройках на NVIDIA Jetson AGX Xavier.

  Наш код, дополнительные аннотации для NYUv2 и SUNRGB-D, а также обученные модели общедоступны по адресу: https://github.com/TUI-NICR/EMSANet .


2. Сопутствующая работа

  Ниже мы кратко суммируем соответствующую работу по каждой задаче. Кроме того, мы даем некоторые сведения о композиции задач в многозадачных средах.


А. Семантическая сегментация

  Архитектура семантической сегментации обычно соответствует конструкции кодера-декодера для выполнения плотного предсказания на уровне пикселей. Хорошо известные методы, такие как PSPNet [5] или серия DeepLab [6]-[8], дают хорошие результаты, но не могут быть выполнены в реальном времени на мобильных платформах из-за недостаточной выборки промежуточных представлений функций. Поэтому появилось еще одно направление исследований, направленное на сокращение времени вывода при сохранении высокой производительности. Например, ERFNet [9] вводит более эффективный блок путем пространственного разложения дорогостоящих сверток 3×3 на свертки 3×1 и 1×3, тем самым уменьшая вычислительные затраты. Напротив, SwiftNet [10] просто использует предварительно обученный ResNet18 [11] в качестве кодировщика и выполняет раннюю и высокую понижающую дискретизацию, что приводит к сокращению времени вывода, но при этом к хорошей производительности.

  Хотя вышеперечисленные методы работают только с данными RGB, особенно для применения внутри помещений, другие методы [12]–[16] также включают данные о глубине, поскольку они предоставляют дополнительную геометрическую информацию, которая помогает анализировать загроможденные сцены. В большинстве методов сначала используются два кодировщика для раздельной обработки данных RGB и глубины (RGB-D), а затем объединяются полученные функции в сети. Однако почти все методы RGB-D используют глубокие и сложные сетевые структуры и не ориентированы на быстрый вывод. Напротив, наша недавно опубликованная сеть ESANet [2] сочетает в себе преимущества высокой эффективности и семантической сегментации RGB-D. Он использует тщательно разработанную архитектуру, включающую двухветвевой кодировщик на основе RGB-D ResNet с высокой понижающей дискретизацией и пространственно-факторизованными свертками, что обеспечивает быстрый вывод. Наши эксперименты в [2] показывают, что обработка данных RGB и глубины со светлыми скелетами лучше, чем использование только данных RGB и более темных скелетов. Таким образом, наш подход следует примеру ESANet и расширяет его архитектуру дополнительными головками для решения оставшихся задач.


Б. Панорамная сегментация

  Панорамная сегментация [17] направлена ​​на объединение семантической сегментации (присвоение метки категории каждому пикселю) и сегментации экземпляра (присвоение уникального идентификатора пикселям одного и того же экземпляра) в одной задаче. При панорамной сегментации семантические классы счетных объектов рассматриваются как классы вещей, представляющие передний план. Фоновые классы, такие как стены или пол, известные как классы материалов, не требуют экземпляров. Таким образом, все связанные пиксели имеют одинаковый идентификатор экземпляра. Методы панорамной сегментации можно разделить на нисходящие, восходящие и сквозные. Методы «сверху вниз» обычно расширяют методы двухэтапной сегментации экземпляров, такие как Mask R-CNN [18], и добавляют декодер для семантической сегментации [19], [20]. Хотя подходы «сверху вниз» часто обеспечивают превосходную производительность, они имеют несколько серьезных недостатков. Поскольку методы сегментации экземпляров могут выводить перекрывающиеся маски экземпляров, для решения этих проблем необходима дополнительная логика, чтобы без противоречий объединить экземплярную и семантическую сегментацию. Более того, они требуют сложных конвейеров обучения и вывода, что делает их менее подходящими для мобильных приложений. С другой стороны, восходящие подходы расширяют архитектуры на основе кодера-декодера для семантической сегментации и разделения категорий вещей на экземпляры путем группировки пикселей в кластеры [21]–[23]. Поскольку восходящие методы не требуют ни предложений по регионам, ни независимой оценки нескольких масок, ни дальнейших шагов уточнения, их конвейеры обучения и вывода длиннее, чем у нисходящих методов. Однако до появления Panoptic DeepLab [23] восходящие методы не могли конкурировать с нисходящими методами с точки зрения панорамного качества. Тем не менее, как нисходящий, так и восходящий подходы требуют дополнительной логики для включения экземплярной и семантической сегментации. Недавно предложенная Max-DeepLab [24] использует другой подход, основанный на новой архитектуре двухпутевого преобразователя [25] и пытается напрямую прогнозировать повсеместную сегментацию, используя сквозной конвейер. Однако исследования таких методов в настоящее время сосредоточены на создании новых архитектур, а не на быстром и эффективном выводе.

  В отличие от семантической сегментации, лишь немногие методы нацелены на эффективность [26]–[30]. Однако их целевое оборудование отличается, поскольку они сообщают о времени вывода только на высокопроизводительных графических процессорах. Ожидается, что выполнение на мобильных платформах, таких как NVIDIA Jetson AGX Xavier, будет намного медленнее.

  Наш подход следует философии «снизу вверх», поскольку он может быть напрямую интегрирован в ESANet и обещает более быстрый вывод на мобильных платформах.


C. Оценка направления

  Оценка ориентации часто выполняется вместе с обнаружением трехмерной ограничивающей рамки [31]–[33] и глубоко интегрирована в эту архитектуру. Настройка этих детекторов для выполнения плотных предсказаний потребует фундаментальных изменений и, следовательно, не подходит для нашего приложения. Другая область исследований, тесно связанная с оценкой ориентации, — это человеческое восприятие [34]–[38]. Помимо использования скелетов [34] для оценки внутренней ориентации человека, существуют также методы оценки ориентации непосредственно по пятнам [35]–[38]. Это можно сделать с помощью классификации или регрессии. Однако, как показано в [35], таксономия еще больше увеличивает неточность дискретности и плохо учитывает периодичность. Поэтому такие методы, как [35], [36], основаны на регрессии и оценивают углы по их синусоидальным и косинусным частям, что часто называют битернионным кодированием [35]. Тот же автор также предложил использовать функцию потерь фон Мизеса [35] вместо потерь L1 или MSE, поскольку это дополнительно улучшает периодичность учета и позволяет избежать разрывов.
  
Наш подход следует последней идее и формулирует оценки направления в виде регрессий. Однако вместо использования методов, основанных на патчах, мы предлагаем новый метод для выполнения плотной оценки ориентации.


D. Классификация сцен

  Классификация сцен, при которой входному изображению присваивается метка сцены, например кухня или гостиная, аналогична другим задачам классификации, таким как ImageNet-Challenge [39]. Поэтому можно использовать известные архитектуры [11], [40]–[42].


E. Многозадачное обучение

  Многозадачное обучение означает одновременное изучение нескольких задач в нейронной сети. Поскольку эти задачи обычно разделяют по крайней мере некоторые сетевые параметры, вывод выполняется быстрее по сравнению с использованием независимых сетей для каждой задачи. Кроме того&#x

Supongo que te gusta

Origin blog.csdn.net/wagnbo/article/details/127756482
Recomendado
Clasificación