CVPR2023 | Сегментация динамической области не требуется! Новый прогресс в многокадровой оценке глубины: механизм перекрестного внимания повышает точность динамической области

Название : Обучение объединению монокулярных и многоракурсных сигналов для многокадровой оценки глубины в динамических сценах

Документ : https://arxiv.org/pdf/2304.08993.pdf

Код : https://github.com/ruili3/dynamic-multiframe -глубина

гид

Многокадровая оценка глубины опирается на согласованность нескольких представлений в статических сценах для получения высокоточных результатов. Однако в уличных сценах точность многокадровых методов в динамических областях значительно снижается из-за существования различных движущихся областей, которые нарушают статические допущения. В этой статье предлагается многокадровая сеть оценки глубины, подходящая для динамических сцен.Благодаря предложенному механизму перекрестного внимания он Cross-cue attentionэффективно сочетает и дополнительно усиливает преимущества многокадровых/однокадровых признаков глубины.Без введения какой-либо динамической сегментации области , Эффект оценки глубины в динамических областях значительно лучше, чем у однокадровых/многокадровых методов .

мотивация

В прошлом методы многокадровой оценки глубины использовали идею «сегментации динамических областей + однокадровая оценка и компенсация» для решения проблемы оценки глубины в динамических областях. Однако

  • Метод очень чувствителен к результатам сегментации динамической области, а точность сегментации вносит дополнительную неопределенность.
  • Точность динамической области часто ограничивается эффектом оценки одного кадра, и трудно добиться значительного улучшения на основе одного кадра.

Исходя из этого, в статье исследуются следующие вопросы:

Можно ли достичь результатов динамической глубины значительно лучше, чем точность мультикадра/одиночного кадра, без введения динамической сегментации областей?

Производительность однокадровых/многокадровых сигналов (слева направо: карта глубины, карта ошибок, реконструированное облако точек)

Как показано на рисунке выше, путем дальнейшего анализа производительности однокадровых/многокадровых сигналов в динамических сценах в документе было обнаружено, что однокадровые сигналы могут лучше фиксировать форму динамических объектов, но точность статических сцен недостаточна. , тогда как статическая точность многокадровых методов очень низкая, высокая, но есть явная деформация структуры сцены в динамической области. Дополняющий характер двух отведений демонстрирует потенциал взаимного усиления :

  • Информация о статической структуре нескольких кадров может повысить общую точность одного кадра, что приведет к дальнейшему повышению точности динамической области одного кадра.
  • Информация о динамической структуре одного кадра может использоваться для повышения точности многокадровых динамических областей и, наконец, для вывода высокоточной динамической глубины сцены.

Для достижения этой цели в этой статье предлагается модуль слияния перекрестных сигналов Cross-cue Fusion moduleдля достижения эффективного слияния двух сигналов глубины без явной сегментации.

метод

Общая структура метода

Для целевого изображения I t ∈ RH × W I_t\in \mathbb{R}^{H\times W}ятерH × W , смежные кадры( I t − 1 , I t + 1 ) (I_{t-1},I_{t+1})( ят - 1,ят + 1) и внутренние и внешние параметры сценыK , TK,TК ,T , целью этой статьи является использование слияния информации об одном/нескольких кадрах для оценки целевого кадраI t I_tятЗначение глубины D t ∈ RH × W D_{t} \in \mathbb{R}^{H\times W}ДтерВ × Ш. Как показано на рисунке выше, основные модули статьи включают: монокулярную/многокадровую конструкцию корпуса с указанием глубины, модуль слияния кросс-метки с информацией о глубине с одним/многокадром (Cross-cue Fusion) и регрессионная сеть карты глубины (модуль глубины) и т. д.

Одно-/многорамная бюджетная конструкция кузова

Стоимостной объем одного/многокадра представляет собой сигналы глубины, передаваемые информацией об одном/многокадре соответственно. Построение многокадрового тела затрат следует построению тела затрат для многоракурсного стереосопоставления: учитывая ряд допущений плоскости глубины d ∈ { dk } k = 1 M d \in\left\{d_k\right\}_{ к=1} ^Мге{ дк}к = 1М, используя метод прогонки плоскости, целевой граф I t I_{t}ятВычислите сходство соответствия между любым пикселем и точкой выборки на эпиполярной линии, соответствующей соседнему кадру.
Затем получите тело стоимости согласования нескольких кадров C multi ∈ [ 0 , 1 ] H × W × M C _ {\ text {multi}} \in[0,1]^{H \times W \times M}Смульти е[ 0 ,1 ]В × Ш × М . ДляC мульти C _ {\ text {мульти}}Смульти Соответствующий вектор C multi ( i , j ) ∈ RM C _ {\ text {multi}} (i, j) \ in \ mathbb {R} ^ {M}, представленный каждым пикселем вСмульти ( я ,ж )ерM , где канал с большим сходством указывает, что значение глубины, которое он представляет, ближе к истинной глубине.

Для построения тела стоимости одного кадра сначала используйте простую сеть U-Net для создания целевого кадра I t I_{t}ятКарта глубины одного кадра D моно = ж θ моно ( я т ) D _ {\ текст {моно}} = f_ \ тета ^ {\ текст {моно}} \ влево (I_t \ вправо)Дмоно "="фямоно ( ят) , чтобы согласовать результат для одного кадра с размером стоимостного объема многокадровой обработки для слияния, мы преобразуем карту глубины одиночного кадра в стоимостной объем глубины Cmono ∈ { 0 , 1 } H × W × M C _ {\ текст {моно}} \in\{0,1\}^{H \times W \times M}Смоно е{ 0 ,1 }В × Ш × М . ПиксельC моно ( я , j ) ∈ RM C _ {\ text {моно}} (i, j) \ in \ mathrm {R} ^ MСмоно ( я ,ж )ерM кодируется как однократный вектор

C моно , ( я , j ) [ k ] знак равно { 1 ∣ d моно ∈ ( dk - 1 , dk ] } k знак равно 1 M , C _ {\ текст {моно}, (i, j)} [k] = \ влево \ {1 \ mid d _ {\ text {моно}} \ in \ left (d_ {k-1}, d_k \ right] \ right \} _ {k = 1} ^ M. \\Смоно  , ( я , j )[ к ]"="{ 1гмоно е( дк - 1,гк] }к = 1М.

Модуль Cross-Cue Fusion

Модуль Cross-Cue Fusion

Получить одиночные/многокадровые тела стоимости C mono , C multi C_{mono},C_{multi}См о н о,См ульт я _Наконец, в этой статье предлагается модуль слияния перекрестных сигналов (Cross-cue Fusion Module, CCF), чтобы объединить два и улучшить друг друга. Как показано на рисунке выше, он состоит из механизма перекрестного внимания (Cross-cue Attention, CCA) и остаточного соединения.

Сначала мы помещаем C mono , C multi C_{mono}, C_{multi}См о н о,См ульт я _Обе функции F моно , F мульти ∈ R час × ш × М F _ {\ текст {моно}}, F _ {\ текст {мульти}} \ в \ mathbb {R} ^ {ч \ раз ш \ раз М}Фмоно,Фмультиерh × w × M , а затем используйте механизм перекрестного внимания (CCA), чтобы усилить друг друга.

F ~ мульти = CCA мульти ( F моно , F мульти ) , F ~ моно = CCA моно ( F мульти , F моно ) . \begin{align} & \widetilde{F}_{\text{multi}}=\mathrm{CCA}_{\text{multi}}\left(F_{\text{моно}}, F_{\text{ multi}}\right), \\ & \widetilde{F}_{\text{mono}}=\mathrm{CCA}_{\text{mono}}\left(F_{\text{multi}}, F_ {\ текст {моно}} \ справа). \end{выровнено}Ф мульти "="ОСОмульти ( Фмоно ,Фмульти ),Ф моно "="ОСОмоно ( Фмульти ,Фмоно ).

Механизм перекрестного внимания (CCA) кодирует структурные особенности, которые можно использовать для взаимного улучшения в каждой подсказке глубины, чтобы получить улучшенные характеристики F ~ multi , F ~ mono \widetilde {F} _ {\ text {multi }}, \widetilde {F} _ {\ text {моно}}Ф мульти,Ф моно. После соединения функций функция слияния F ~ плавленая \widetilde {F} _ {\ text {плавленная}}Ф сплавленный, и используйте остаточное соединение j для преобразования F ~ fused \widetilde {F} _ {\ text {fused }}Ф сплавленный и информацию о первоначальной стоимости тела F cat F_{\text {cat}}Фкоткомбинировать

F знак равно γ F ~ сросшийся ↑ + F кот. F = \ gamma \ widetilde {F} _ {\ text {сплавленный}} \ uparrow + F _ {\ text {кошка}}.Ф"="сФ сплавленный+ Фкот.

где F кошка F _ {\ text {кошка}}Фкот代表C моно, C мульти C_{моно},C_{мульти}См о н о,См ульт я _Признаки, обработанные мелкой СНС после соединения, γ\gammaγ — обучаемый параметр. Мы сплавим функциюFFF вводится в сеть оценки глубины (модуль глубины) для получения окончательной оценки глубиныD t D_{t}Дт

Механизм перекрестного внимания

Являясь ключевой частью модуля слияния перекрестных сигналов, перекрестное внимание (CCA) имеет две параллельные ветви для улучшения многокадровых и однокадровых функций соответственно. Для простоты мы используем F ~ multi = CCA multi ( F mono , F multi ) \widetilde {F} _ {\ text {multi}} = \ mathrm {CCA} _ {\ text {multi}} \left (F_ { \text {моно}}, F_{\text {мульти}}\справа)Ф мульти "="ОСОмульти ( Фмоно ,Фмульти ) в качестве примера для иллюстрации процесса метода.

Для заданного одиночного и многокадрового признака F mono , F multi ∈ R h × w × M F_{\text {mono}}, F_{\text {multi}} \in \mathbb{R}^{h \times ш \ умножить на М}Фмоно,Фмультиерh × w × M , используйте свертку для преобразованияF моно F _ {\ text {моно}}ФмоноПреобразование в функцию запроса Q моно Q _ {\ text {моно}}Вопросмонои ключевая особенность K моно K _ {\ text {моно}}Кмоно, а F мульти F _ {\ text {мульти}}ФмультиПреобразование в объект значения V моно V _ {\ text {моно}}Вмоно. Мы используем Q mono Q_{\text{mono}}, закодированное из однокадровых сигналов.ВопросмоноK моно K _{\text{моно}}КмоноВычислите внутренние относительные веса внимания R моно R _ {\ text {моно}}рмоно, который строит относительные структурные отношения в пределах одной метки глубины кадра

р моно знак равно Softmax ⁡ ( Q моно ⊗ K моно Т ) , R _ {\ текст {моно}} = \ OperatorName {Softmax} \ влево (Q _ {\ текст {моно}} \ otimes K _ {\ текст {моно}} ^ Т\право),рмоно "="Софтмакс( Qмоно Кмононуклеоз Т),

Затем мы передаем информацию об относительных структурных отношениях в однокадровых сигналах в V multi V _ {\ text {multi}} с помощью операции матричного умножения во внимании.ВмультиМногокадровые функции, представленные расширенным F ~ multi \widetilde {F} _ {\ text {multi}}Ф мульти
F ~ мульти знак равно р моно ⊗ V мульти . \widetilde {F} _ {\ text {мульти}} = R _ {\ text {моно}} \otimes V _ {\ text {мульти}}.Ф мульти"="рмоноВмульти.Использование
многокадровых функций для улучшения однокадровых функций также следует аналогичному методу расчетаF ~ моно = CCA ⁡ моно (F мульти, F моно) }_{ \text {mono}}\left(F_{\text {multi}}, F_{\text {mono}}\right)Ф моно"="ОСОмоно( Фмульти,Фмоно)

Визуализация информации о внутренней структуре одного кадра ($R_{\text {mono}}$) и информации о внутренней структуре нескольких кадров ($R_{\text {mono}}$) динамических областей (красные точки)

Регионально-селективные свойства CCA в поперечном армировании

Мы обнаружили, что механизм перекрестного внимания (CCA) может выборочно передавать структурную информацию, которая полезна для улучшения друг друга в одиночных/многокадровых сигналах обучаемым способом, что позволяет избежать введения явных методов динамической сегментации объектов . Как показано на рисунке выше, мы проводим перекрестные карты внимания R mono , R multi R _ {\ text {mono}}, R _ {\ text {multi}} в точках выборки динамической области (красные точки в столбце 1 )рмоно,рмультиВизуализация, которая показывает распределение структурной информации, полученной сетью , что помогает улучшить друг друга в каждом сигнале глубины. в

  • Информация, передаваемая однокадровыми сигналами (столбец 2), сосредоточена вокруг динамической области , указывая на то, что сеть может получать полезную информацию из однокадровых сигналов в динамической области, а затем передавать ее многокадровым сигналам.
  • Однако информация, передаваемая многокадровыми сигналами (столбец 3), распределяется в более широкой статической области , указывая на то, что сеть может получать полезную информацию от многокадровых сигналов в статических областях, а затем передавать ее однокадровым сигналам.

Регионально-избирательный характер передачи информации CCA при различных сигналах глубины демонстрирует его потенциал для высокоточной оценки глубины без необходимости динамической сегментации области, что позволяет избежать введения дополнительных механизмов сегментации.

Результаты эксперимента

КИТТИ результаты

Результаты оценки набора данных одометрии KITTI
KITTI Результаты визуализации набора данных одометрии

Как показано выше, в документе KITTI Odometryсравниваются наборы данных и показывается общая точность и точность динамической области многокадровых динамических сцен соответственно. По сравнению с предыдущим оптимальным методом динамическая погрешность этого метода значительно снижена более чем на 21% (Abs.Rel 0,141 $\rightarrow $ 0,111), и в то же время достигается наилучшая глобальная точность оценки глубины. Результаты визуализации показывают, что метод может значительно уменьшить ошибку оценки глубины в динамических областях и может реконструировать трехмерное облако точек, которое более соответствует структуре динамических объектов.

Сравнение обобщения наборов данных

Оценка обобщения набора данных DDAD

KITTIОбученная модель тестируется на наборе DDADданных.Экспериментальные результаты показывают, что бумага может достичь той же общей точности обобщения, что и текущий лучший метод, и в то же время добиться лучшей производительности обобщения, чем текущий усовершенствованный метод с точки зрения точности динамического объекта. .

Улучшение возможностей и оценка масштабируемости по сравнению с одним кадром

Улучшение динамических объектов по сравнению с однокадровой оценкой и оценкой масштабируемости модели

В предыдущих методах точность оценки одного кадра была важным фактором, ограничивающим влияние динамических областей. В статье показано улучшение производительности различных методов по сравнению с их соответствующими однокадровыми сетями в области динамического объекта . Погрешность оценки бумаги в динамической области в 21,81 21,81 меньше, чем погрешность оценки ее однокадровой ветви.21,81 %, что значительно лучше других методов (строки 1-3 вышеприведенной таблицы). В то же время, в случае применения более качественной однокадровой сети оценки, в статье достигается такое же улучшение за счет лучшей однокадровой производительности (строки 3-4 в приведенной выше таблице), что демонстрирует ее гибкость и масштабируемость.

Подведем итог

В этой статье предлагается новый метод многокадровой оценки глубины динамических сцен. Благодаря лучшему объединению одиночных/многокадровых сигналов глубины и улучшению друг друга достигается высокоточная оценка глубины динамической области без сегментации движения . Эксперименты доказывают, что этот метод обеспечивает лучший общий/динамический эффект оценки глубины области и обладает хорошей универсальностью и масштабируемостью.

Supongo que te gusta

Origin blog.csdn.net/CVHub/article/details/130478952
Recomendado
Clasificación