Годовой отчет о прогрессе в области трехмерного зрения на основе NeRF

Университет Цинхуа: Лю Ебинь

Исходная ссылка: [Сводка NeRF] Годовой отчет о ходе работы 3D Vision на основе NeRF — Лю Ебинь, Университет Цинхуа (от Small Sample Vision and Intelligence)

Оглавление

Каталог статей

Годовой отчет о прогрессе в области трехмерного зрения на основе NeRF

01 Введение

НеРФ

NeRF: новый метод синтеза представлений, основанный на дифференцируемом объемном рендеринге и трехмерном представлении нейронного поля.

Рис. 1. Визуализация различных сцен в свободной перспективе.

Два основных элемента NeRF:

Неявные нейронные поля: идентификация цветовых полей и полей объемной плотности с полностью связанными сетями на основе координат
Формула визуализации объема: визуализация поля плотности объема цветового поля в виде изображения

Рис 2. Основной процесс NeRF См. [1] для получения более подробной информации.

NeRF и 3D зрение

Основной метод оптимизации NeRF: сквозной дифференцируемый рендеринг (компактное эффективное трехмерное визуальное представление информации).

С более существенной точки зрения устанавливается связь между двухмерными изображениями и трехмерным миром.

Рис. 3. NeRF моделирует механизм зрительного воображения, который ближе к сути визуального мира

Трехмерное представление и дифференцируемый рендеринг

Рис. 4. Сравнение NeRF и традиционных методов трехмерного представления.

фоновое значение

Сценарии применения включают в себя:

Создание и редактирование 3D-контента
Позиционирование и навигация Robot Vision
3D реконструкция и рендеринг
Реальность движет цифровыми людьми
Карта просмотра улиц на уровне города
физическое моделирование
……

С момента своего предложения в 2020 году NeRF стал одной из основных исследовательских парадигм в области 3D-видения и способствовал развитию таких задач, как реконструкция, рендеринг, позиционирование, генерация и понимание 3D-видения.

02 Ход исследований на основе NeRF

оптимизация эффективности

Мотивация исследования: Naive NeRF имеет длительное время обучения и длительное время рендеринга. Узкое место вычислений заключается в следующем: сложность = время сетевого запроса с одной точкой выборки x количество точек выборки

01 Используйте разреженное геометрическое выражение

Решение. Используйте разреженные геометрические выражения (разреженные воксели, октодеревья, поверхности и т. д.), чтобы исключить области выборки, не влияющие на интеграцию, и уменьшить количество выборок.

NSVF, SNeRG, Plenoxels, Plenoctrees : удалите воксели в негеометрической области, уточните воксели вблизи поверхности объекта и получите разреженные воксели или выражения октодерева.
MobileNeRF : извлеките NeRF в разреженную геометрию треугольных сетчатых поверхностей и используйте растеризацию для рендеринга в реальном времени на мобильной стороне.

02 Вокселизация

Идея решения: используйте воксельное пространство для хранения многомерных функций или облегченных сетей для выполнения запросов низкой сложности.

KiloNeRF : Пространственная вокселизация, каждый воксель использует облегченную сеть, что значительно снижает объем вычислений и увеличивает рендеринг примерно в тысячи раз.
DVGO : благодаря стратегиям обучения, таким как инициализация сетки вокселей с низкой плотностью и активация после интерполяции, поле плотности NeRF и поле цветовых характеристик, выраженное вокселями, напрямую оптимизируются для достижения конвергенции обучения на минутном уровне.

03 Сжатие вокселей (хеш-таблица)

Идея решения:
использовать хеш-технологию для сжатия хранилища воксельной сетки высокого разрешения.

InstantNGP: создание многомасштабных воксельных сеток для хранения многомерных объектов, сжатие сеток с высоким разрешением с помощью хэша и достижение высокого разрешения и быстрого рендеринга в условиях низкой сложности.

04 Воксельное разложение

Идея решения: воксельная сетка разлагается на низкоразмерное плоское сеточное выражение, а занимаемое пространство сводится к квадратному уровню.

EG3D: Элементы вокселя, соответствующие трехмерным координатам, определяются как элементы трех ортогональных проекционных плоскостей.
TensorRF : Разлагает воксельную сетку на сумму тензоров низкого ранга в виде тензорных произведений вектор-плоскость.
MeRF: воксель низкого разрешения + плоская проекция высокого разрешения

05 Воксельная декомпозиция (продвижение 4D)

Идея решения: следуйте идее декомпозиции 3D->2D и выполняйте декомпозицию 4D->2D

Tensor4D: 4D-сетка -> 3 3D-сетки -> 3x3=9 2D-сетки
HumanRF : 4D-сетка -> тензорное произведение 4 3D-сеток с 1D-сеткой, где 3D-сетка использует хеш-сжатие.
HexPlane, K-Planes: 4D-сетка -> координаты (x, y, z, t) объединяются попарно для получения 6 2D-сеток.

динамическое моделирование

Мотивация исследования: расширить NeRF для представления нестационарного контента и запустить синтез новой точки зрения на динамических сценах.
Ранние работы: D-NeRF, Nerfies, Hyper-NeRF.
Решение: Смоделируйте динамическую сцену как стандартное пространство и поле деформации, используйте поле деформации для сопоставления информации о внешнем виде, наблюдаемой в разных кадрах, со стандартным пространством и реализуйте разделение информации о внешнем виде и движении.

Существующие ограничения и направления улучшения:

01 Динамическое восприятие переднего плана

Мотивация исследования: Для реальных сцен с большой деформацией движения, захваченных монокулярными камерами, существующие методы динамического представления, основанные на полях деформации, не могут точно отделить движение объектов, и сложно восстановить качественные динамические текстуры.

Решение:
улучшите восприятие NeRF динамических передних планов, изменив представления или добавив дополнительную информацию.

FSDNeRF: метод представления для построения неявного поля скоростей, введения информации о межкадровом оптическом потоке монокулярного предсказания и применения регуляризации во временной области к полю скоростей.
Nerfplayer: разработайте динамический остаточный NeRF, связанный с предметной областью, в реальном времени, чтобы уменьшить связь информации о движении и динамической текстуры.
RoDynRF: представляет динамический NeRF для отображения смоделированной сегментации переднего плана и повышения качества синтетического внешнего вида за счет совместной оптимизации позы камеры.

02 Вокселизация

Идея решения:
используйте воксели для хранения высокоразмерных объектов или облегченных сетей для достижения динамического моделирования на уровне минут и рендеринга высокой четкости в реальном времени.

TineuVox: Преобразование стандартного пространства NeRF в отображение на основе вокселей и использование стратегии многомасштабной выборки признаков для обеспечения глобального восприятия вокселей в процессе оптимизации.
Пленодеревья Фурье: покадровое моделирование параметров излучения вокселей с использованием параметров Фурье в сочетании с дискретным преобразованием Фурье
Динамические карты MLP: 3D-сцены представлены комбинациями локальных облегченных сетей на уровне вокселей в сочетании с 2D-сверточными сетями с гиперпараметрами для эффективного создания параметров сети MLP покадрово.

Реконструкция человеческого тела и создание аватара

Мотивация исследования: метод динамического моделирования NERF трудно применить к сценариям, в которых человеческое тело движется в большом диапазоне.
Ранняя работа: используя параметрическую модель человека SMPL в качестве априори, установить крупномасштабную связь движения скелета между кадрами и оптимизировать нежесткое поле деформации и NeRF под стандартную позу.

01 Динамический человеческий аватар

Недавний маршрут: более качественные управляемые цифровые люди с упором на моделирование динамических деталей одежды.

Ремелли и др.: Внедрение дополнительных сигналов, управляемых изображением, для предоставления более полной информации о внешнем виде.
AvatarRex: предлагает локальные поля нейронного излучения вместе с локальными функциональными блоками для кодирования мелких деталей человеческой одежды.
PoseVocab: предлагается библиотека представления поз для кодирования высокочастотных изменений внешности человека в разных позах.

02 Взаимодействие между людьми, объектами и сценами

решение:

Instant-NVR: сочетание нежесткого отслеживания и Instant-NGP для онлайн-реконструкции людей и объектов NeRF.
HOSNeRF: Внедрите скрытое кодирование состояния для представления различных состояний взаимодействия людей, объектов и сцен.
Хоу и др. вводят скрытое кодирование людей и объектов, чтобы отделить контактные отношения между людьми и объектами и синтезировать взаимодействие между людьми и объектами в новых позах.

03 Цифровое человеческое поколение

Решение: SMPL+NERF+ (GAN/диффузия)

AvatarCLIP: Используя CLIP в качестве априори, сгенерируйте статические цифровые последовательности человека и движения соответственно.
EVA3D : Предложите комбинированный человеческий NERF для изучения трехмерного человеческого GAN в стандартном пространстве.
DreamAvatar: с априорной стабильной диффузией изображение, визуализируемое на основе NeRF, ограничено для удовлетворения семантических входных данных.

Реконструкция лица и генерация аватара

01 Разреженная реконструкция точки обзора

Мотивация исследования: Реконструкция лица с разреженной точкой зрения, NeRF легко подходит для каждой точки зрения, а при синтезе новой точки зрения появляются артефакты.

Решение. Введите априорные данные, такие как большие данные о лицах, ключевые точки и шаблоны лиц, чтобы оптимизировать качество реконструкции NeRF.

LP3D (статический + в реальном времени ): используйте данные лица, сгенерированные EG3D, для обучения, введите одно изображение и сделайте вывод NeRF выражения в трех плоскостях.
HAvatar (динамический аватар): использование 3DMM спроецированных трехплоскостных ограничений поля нейронного излучения для получения высококачественных динамических аватаров человеческих голов.
NeRSemble (динамический) : параметры выражений 3DMM вводятся для построения поля деформации семантического пространства с выражениями, которые соответствуют сложной динамике выражений.

02 Генерация аватара лица

Мотивация исследования: метод динамической реконструкции NeRF не может выполнять последующие выражения на модели лица с помощью аудио и видео, а форма рта определяется формой рта.
Недавние исследования: введение предварительно обученных моделей для расширения до реконструкции одного изображения; улучшенное выражение NeRF и выражение выражения.

Хуанг и др.: Изучение параметров неявных выражений из речи, по сравнению с традиционными выражениями 3DMM, имеет более сильные выразительные способности.
OTAvatar: для обучения не требуется видео, вводится только изображение одного кадра, а модель NeRF может управляться с помощью генерирования EG3D перед обучением.

Обобщенная реконструкция NeRF

01 Реконструкция на основе диффузионной модели

Мотивация исследования: Наивный NeRF требует интенсивных съемок и самостоятельной подготовки для каждого объекта или сцены, поэтому есть надежда, что NeRF можно будет напрямую рекомендовать по разреженным изображениям с точки зрения.

Ранняя работа: NeRF для изучения пространственного выравнивания функций изображения на основе крупномасштабных данных.

Недавний маршрут: реконструкция NeRF по одному изображению на основе модели диффузии

ReRDi: получить семантическую информацию входного изображения из предварительно обученной модели скрытой диффузии и ограничить изображение рендеринга новой точки зрения, чтобы оно соответствовало семантической информации.
GeNVS: предлагается модель диффузии с учетом 3D, а процесс шумоподавления выполняется на основе карты признаков, полученной путем объемного рендеринга.
Make-It-3D: для дальнейшего улучшения качества текстур предлагается двухэтапный метод оптимизации от NeRF до облака точек.

3D-генерация

Мотивация исследования: использование крупномасштабных априорных 2D-изображений для получения генеративных априорных моделей объектов для поддержки реконструкции разреженных точек обзора и различных задач редактирования.
Недавний маршрут: 3D-генерация объекта категории -> GAN, 3D-генерация общего объекта -> Диффузия

01 Генерация объекта категории 3D GAN

Мотивация исследования: NeRF обладает характеристиками дифференцируемого рендеринга и может оптимизировать параметры сети на основе наблюдения за 2D-изображениями, поэтому NeRF объединяется с GAN для создания генеративного поля нейронного излучения и обучения генерации 3D-контента.

Решение: сеть MLP на основе поля нейронного излучения использует стратегию конфронтационного обучения GAN для изучения генеративного поля нейронного излучения из 2D-изображений и контролирует его геометрию и текстуру с помощью случайного шума для генерации неявных кодов.

02 Генерация объекта категории 3D GAN (улучшение в трех плоскостях)

Мотивация исследования: 3D GAN ограничена потреблением памяти и возможностями выражения MLP, а разрешение сгенерированных результатов низкое.

Решение и нововведение: предложено трехмерное выражение на основе трех плоскостей, а высокочастотный сигнал поля нейронного излучения сохраняется в трех плоскостях, чтобы уменьшить вес сети MLP.Не теряя выразительной способности, это значительно уменьшает потребление памяти и повышает скорость рендеринга.Используйте эффективный 2D-стильGAN для создания триплана с высокочастотными деталями для повышения качества генерации;используйте сверхвысокое разрешение 2D для улучшения разрешения рендеринга.

03 Генерация объекта категории 3D GAN (сверхвысокое разрешение)

Мотивация исследования: 2D-сеть сверхвысокого разрешения объединяет перспективную информацию и функции изображения, нарушая согласованность 3D.

Решение и инновация: замените сверхвысокое разрешение 2D на сверхвысокое 3D-разрешение

Gram-hd : установить набор неявных поверхностных многообразий в поле нейронного излучения и выполнить сверхразрешение над поверхностными многообразиями.
Mimic3D : позволяя ветви 3D-рендеринга генератора синтезировать изображения, имитирующие изображения, созданные его ветвью 2D-супер-разрешения, это позволяет 3DGAN генерировать высококачественные изображения, сохраняя при этом их строгую согласованность с 3D.

04 Генерация общих 3D-объектов (масштабирование 2D)

Мотивация исследования: большие 2D-генеративные модели обладают сильной способностью генерировать изображения из текста; NeRF имеет возможность представлять непрерывные и сложные 3D-объекты, а его метод рендеринга представляет собой дифференцируемый и обратимый рендеринг, поэтому сетевые параметры поля излучения могут быть обратная оптимизация с помощью 2D-контроля для достижения
3D-генерации общих объектов или сцен.

Решение: использовать предварительно обученную двухмерную генеративную большую модель в качестве априорной, использовать потери выборки дистилляции оценок (SDS), минимизировать расхождение KL
распределения между дифференцируемым изображением рендеринга NeRF и изображением, сгенерированным диффузионной моделью, оптимизировать NeRF. параметры, и реализовать текст для трехмерного поколения. Представитель работы: Dreamfusion, Magic3D, Fantasia3D

Мотивация исследования: цель оптимизации Score Distillation Sampling (SDS) состоит в том, чтобы сделать визуализируемое изображение одного NeRF удовлетворяющим максимальной вероятности распределения изображения предварительно обученной модели по заданному тексту, чтобы NeRF был оптимизирован для соответствия к определенному оптимальному распределению изображения.Значения: Сгенерированные 3D-модели перенасыщены, сглажены и лишены разнообразия

Решение: Распределение изображения предварительно обученной модели по заданному тексту соответствует набору (большему или равному единице) распределения NeRF, а вариационный вывод параметров NeRF выполняется с точки зрения вероятности. Вариационная оценка дистилляционной выборки (VSD) изменяет цель оптимизации с одноточечного NeRF на распределение NeRF; использует частицы для моделирования распределения NeRF и итеративно оптимизирует эти частицы, чтобы распределение визуализированного изображения было близко к распределению NeRF. предварительно обученная модель, таким образом генерируя Разнообразие и качество детализации 3D-моделей выше.

Генерация объекта категории 3D (собственное 3D)

Мотивация исследования: метод использования Diffusion для оптимизации NeRF (2D upscaling) требует много времени (часы); сеть MLP в поле нейронного излучения не имеет явной структуры и не может быть напрямую оптимизирована на основе диффузии; объем памяти, необходимый для 3D диффузия отличается от вычислительной нагрузки почти невыносимой,

Решение: Построить диффузионную модель с трехмерным восприятием: представить поле нейронного излучения в виде явной трехплоскостной структуры (Rodin, NFD, SSDNeRF), воксельной сетки (DiffRF), изучив процесс шумоподавления поля нейронного излучения, вы может генерировать поля нейронного излучения непосредственно из шума без оптимизации. В настоящее время поддерживается только создание объекта категории.

3D редактирование

01 Редактирование объектов/сцен NeRF

Мотивация исследования: Традиционные поля нейронного излучения подходят или генерируют сцены или объекты, которые нельзя редактировать.

Решение: используйте различные сети и скрытые векторы для разделения формы и внешнего вида; пользователи редактируют 2D-рендеринг изображений, используют сеть и скрытые векторы для оптимизации обратного распространения или прямого редактирования.

Ранние работы: EditNeRF, NeRF-Editing, NeuMesh, ARF

02 Редактирование NeRF на основе GAN

Мотивация исследования: 3D GAN, такие как PiGAN и GRAF, генерируют насыщенные 3D-лица, но их нельзя отредактировать с высокой степенью детализации.

Решение: сопоставление внешних сигналов с полями нейронного излучения, редактирование их характеристик.

IDE3D : предложить генеративное нейронное семантическое поле, разделяющее геометрию и материал, и выровнять 3D-семантику и геометрию за счет дополнительного вывода семантических масок в геометрической ответвленной сети; принцип редактирования заключается в том, что редактирование 2D-семантической карты сопоставляется с семантическим полем, тем самым редактируя 3D семантика и геометрия для согласования.
Next3D : предлагается динамическое трехплоскостное выражение, основанное на нейронных текстурных картах.Управляющий сигнал выражения будет растеризован через нейронную текстуру, вызывая деформацию элементов плоскости, а затем визуализируя изображение с соответствующим выражением.

Представитель работы: IDE3D, NeRFaceEditing, AnifaceGAN, Next3D

03 Редактирование NeRF на основе Diffusion

Мотивация исследования: на основе диффузионной модели графа Винсента использование текста в NeRF для более интуитивного и интерактивного редактирования 3D или 4D.

Решение: использовать диффузионную модель для итеративного редактирования обучающей выборки и одновременно оптимизировать параметры поля нейронного излучения, чтобы результат рендеринга NeRF и редактируемое изображение, сгенерированное заданным текстом, стремились к согласованности;

Представительская работа: InstructNeRF2NeRF, Instruct3D-to-3D

4D-генерация и редактирование

Генерация и редактирование динамического NeRF на основе Diffusion

Мотивация исследования: существующая модель распространения может быть отредактирована только для создания 2D-изображений, а с помощью динамического NeRF ее можно обновить с 2D до 4D для обеспечения высококачественного и согласованного редактирования и генерации 4D.

Control4D : объединение Tensor4D и GAN для реализации 4D GAN, использование 4D GAN для изучения распределения изображения, созданного диффузионной моделью, в разных временных промежутках, избегая прямого наблюдения за изображением для достижения высококачественных эффектов редактирования и генерации, генерируемое наблюдение с помощью дискриминатора 4DGAN Сигнал более плавный, чем в диффузионной модели, что улучшает пространственно-временную согласованность редактирования 4D-сцены и ускоряет сходимость сети.

Редактирование света и тени

Мотивация исследования: расширить возможности NeRF для представления информации о материалах, чтобы реализовать редактирование света и тени. ,

Предыдущие работы: NeRFactor, InvRender, PhySG.

Решение: разложите цветовое представление NeRF на «Нормальный + BRDF + Освещение» и рекомбинируйте рендеринг, чтобы реализовать повторное освещение и редактирование материала.

улучшение представления

Мотивация исследования: неявное поверхностное поле имеет преимущество в представлении геометрии, но его трудно визуализировать с помощью метода пошагового луча NeRF: если неявная поверхностная функция преобразуется в функцию плотности с использованием наивного метода, положение поверхности, оцениваемое лучевой интеграл будет несколько ближе на реальной поверхности.

Ранние работы: VolSDF, NeuS, DoubleField, UNISURF

Идеи решения: 1) Перераспределить вес интеграла по точкам отбора света так, чтобы конечный интеграл мог попасть на поверхность; 2) Перераспределить точки отбора света так, чтобы точки отбора были сосредоточены на поверхности.

моделирование сцены

Цель исследования: Расширение NeRF для представления большого содержимого сцены, позволяющее точно реконструировать и синтезировать новые точки зрения для неструктурированных коллекций изображений с большими пространственными интервалами и сложными геометрическими текстурами.

Ранние работы: NeRF++, Mip-NeRF, Mip-NeRF 360

Идея решения: За счет введения полнопространственной нелинейной параметрической модели решается проблема моделирования NeRF в неограниченных 3D-сценах, а за счет введения интегрированного позиционного кодирования с учетом гауссовской области точек дискретизации — проблема размытия и алиасинга в NeRF при решается многомасштабная реконструкция.

03 Годовой тренд развития NeRF

Тенденция 1: Высококачественное динамическое моделирование

Хотя метод NeRF до 2022 года превосходно работает в статических сценах, еще есть возможности для улучшения моделирования сложных динамических сцен . В этом году в этом направлении была проделана большая работа, в том числе не только усовершенствование 4D моделирования общих динамических сцен, но и усовершенствование моделирования человеческих лиц и тел, часть работ достигла даже потрясающих результатов в предпосылке обеспечения производительности в реальном времени.

Тренд 2: Сочетание с крупными моделями

Посадочное применение больших моделей уже не остановить. Много работы в этом году было посвящено объединению генеративных больших моделей с NeRF , чтобы обеспечить возможность генеративного авторинга NeRF. После объединения с большой моделью NeRF больше не ограничивается реконструкцией реальных объектов или сцен, а обладает творческим потенциалом «создания чего-то из ничего».

Тенденция 3: Встраивание более богатой информации

Работа NeRF до 2022 года в основном сосредоточена на рендеринге с новой точки зрения, поэтому рассматривается только моделирование геометрии и текстуры. В работе этого года исследователи представили NeRF больше информации, включая богатые свойства материалов и семантические коннотации более высокого уровня . Введение семантической информации еще больше расширяет потенциальные сценарии применения NeRF.

Тенденция 4: Применить к другим полям

В прошлом году NeRF привлекал внимание только в области 3D-видения. В этом году NeRF добился «разрыва круга» и также применялся в областях робототехники, автономного вождения и лечения , Его новая возможность генерации точек зрения может эффективно помочь в создании данных и понимании сцены в этих областях.

[Сводка NeRF] Годовой отчет о ходе работы 3D Vision на основе NeRF

Годовой отчет о прогрессе в области трехмерного зрения на основе NeRF

Каталог статей

01 Введение

НеРФ

NeRF и 3D зрение

Трехмерное представление и дифференцируемый рендеринг

фоновое значение

02 Ход исследований на основе NeRF

оптимизация эффективности

01 Используйте разреженное геометрическое выражение

02 Вокселизация

03 Сжатие вокселей (хеш-таблица)

04 Воксельное разложение

05 Воксельная декомпозиция (продвижение 4D)

динамическое моделирование

01 Динамическое восприятие переднего плана

02 Вокселизация

Реконструкция человеческого тела и создание аватара

01 Динамический человеческий аватар

02 Взаимодействие между людьми, объектами и сценами

03 Цифровое человеческое поколение

Реконструкция лица и генерация аватара

01 Разреженная реконструкция точки обзора

02 Генерация аватара лица

Обобщенная реконструкция NeRF

01 Реконструкция на основе диффузионной модели

3D-генерация

01 Генерация объекта категории 3D GAN

02 Генерация объекта категории 3D GAN (улучшение в трех плоскостях)

03 Генерация объекта категории 3D GAN (сверхвысокое разрешение)

04 Генерация общих 3D-объектов (масштабирование 2D)

Генерация объекта категории 3D (собственное 3D)

3D редактирование

01 Редактирование объектов/сцен NeRF

02 Редактирование NeRF на основе GAN

03 Редактирование NeRF на основе Diffusion

4D-генерация и редактирование

Генерация и редактирование динамического NeRF на основе Diffusion

Редактирование света и тени

улучшение представления

моделирование сцены

03 Годовой тренд развития NeRF

Тенденция 1: Высококачественное динамическое моделирование

Тренд 2: Сочетание с крупными моделями

Тенденция 3: Встраивание более богатой информации

Тенденция 4: Применить к другим полям

04 Перспективы исследований NeRF

Supongo que te gusta