ДИНО (ICLR 2023)

DETR с улучшенным блоком привязки для подавления шума

Разработка ДИНО:

Условный DETR->DAB-DETR (коррекция 4D, WH)

DN-DETR (обучение шумоподавлению, процесс стабильного сопоставления шумоподавления)

Деформируемый DETR (Вариант 1: двухэтапный, выходные данные кодировщика заменяются заголовком классификации FFN с запросом объекта, Вариант 2: итеративное уточнение блока)

Три улучшения:

Обучение контрастному шумоподавлению
Инициализация запроса (проектирование объектного запроса декодера)
предсказание коробки

Продемонстрирована масштабируемость класса DETR на больших наборах данных с использованием больших магистральных наборов данных и сравнения SOTA.

Модель

Используются многомасштабные функции.
Выбор запроса: используйте выходные данные кодировщика, чтобы помочь декодеру определить запрос.
Используйте контрастное обучение шумоподавлению: pos (положительные образцы) neg (отрицательные образцы)
Улучшение уточнения итерации блока (не показано на рисунке)

Обучение контрастному шумоподавлению

DN: обучение шумоподавлению, стабильное сопоставление

DN два шума: исходный гиперпараметр смещения DN (xywh) (0 ~ 1) λ1 (xy) = λ2 (wh) = 0,4, инверсия метки метки

Вставьте сюда описание изображения

图中， Хотя и положительные, и отрицательные примеры представляют собой 4D-якоря, которые можно представить в виде точек в 4D-пространстве, для простоты мы иллюстрируем их как точки в 2D-пространстве на концентрических квадратах.

加了对比（ генерировать два типа запросов CDN: положительные запросы и отрицательные запросы ）:

λ1<λ2 (не гиперпараметр DN-DETR)

Положительный образец : положительный образец, попадающий в λ1.

Отрицательный образец : отрицательный образец λ1~λ2.

Каждый GT разработан с использованием положительного и отрицательного образца.
Постараюсь держать λ1 и λ2 близкими, чтобы сформировать жесткие отрицательные выборки.
Для положительных образцов все равно рассчитывайте потерю f1, потерю фокуса.
Для отрицательных выборок окончательный прогноз категории не должен иметь значения.
Резервная группа

Идея:

Если рядом с привязкой нет объекта, его следует прогнозировать как отсутствие объекта. Используйте метод сравнения, чтобы лучше узнать об отсутствии объекта.

Если вокруг GT имеется несколько якорей, модель не может выбрать какой якорь, что приведет к следующим двум проблемам:

Когда вокруг GT имеется несколько якорей, модели сложно определить, какой GT прогнозирует якорь, и будут происходить повторные прогнозы (хотя Венгрия требует однозначного соответствия, оно все еще ограничено).
Якорь и GT будут выделены, если они находятся далеко друг от друга. Фактически, этот тип якоря следует классифицировать как отсутствие объекта.

Проверьте достоверность CDN : ATD

Чтобы доказать эффективность CDN, мы определяем среднее расстояние Top-K (ATD (k), индикатор) и используем его в соответствующей части для оценки расстояния опорной точки от целевого блока GT. Как и DETR, каждая привязка соответствует прогнозу, который может соответствовать блоку GT или фону. Здесь мы рассматриваем только те, которые соответствуют коробке GT.

N ГЦ (b0, b2,..., bN-1).

Для каждого $б_{я}$ мы можем найти соответствующий якорь и выразить его как:

ai — это начальная привязка декодера, которая назначает последний уровень декодера блоку уточнения после bi во время сопоставления. Тогда у нас есть:

L1норм

Производительность намного выше на небольших целях

Выбор смешанного запроса

В DETR и DN-DETR запрос декодера представляет собой статическое внедрение без получения каких-либо закодированных функций из одного изображения.

Deformable DETR имеет вариант выбора запроса (двухэтапный), который выбирает первые K функций кодера из выходных данных кодера после последнего кодера в качестве предшествующего для улучшения запроса декодера. Deformable DETR использует top-K функций (метку), чтобы не только
apply Используется для запросов местоположения и контента.

То есть вход декодера:

detr: tgt (ноль), pos-запрос (встраивание)

DINO: tgt (становится внедрением), pos query (запрос объекта поступает из вывода топка кодировщика, информация о текущем изображении)

Метод выбора смешанного запроса только расширяет запрос местоположения с помощью функций выбора Top-k
и сохраняет запрос контента таким же доступным для изучения, как и раньше.

（a）detr-декодер: tgt和запрос объекта

(b) деформируемый detr: добавлен выбор top k, который работает одновременно с запросом объекта и tgt.

Посмотрите вперед дважды

Головка блока декодера исправлена на вспомогательные потери, а градиент нарушен перед i-м слоем (пунктирная линия)

Посмотрите вперед один раз: вспомогательные потери могут изменить только градиент текущего слоя (декодера).Итеративное уточнение поля в Deformable DETR может предотвратить обратное распространение градиента для стабилизации обучения.

жду дважды:

**Предполагаем, что улучшенная информация о блоке из более позднего слоя может быть более полезной для исправления предсказания блока на соседнем раннем уровне. **Поэтому для выполнения обновления блока предлагается другой метод под названием Look Forward Twice, при котором на параметры i-го слоя влияет потеря i-го слоя и (i+1) слоя.

Δbi — поправка входа bi-1 к предыдущему слою.

Добавьте Δbi ко входу bi-1 предыдущего слоя, чтобы получить bi' (исправленный прямоугольник)

bi (pred) — прогноз, заданный boxhead. Источник — bi'-1+Δbi. Вы можете изменить декодер этого уровня и предыдущего декодера.