Годовой отчет о прогрессе в области трехмерного зрения на основе NeRF
Университет Цинхуа: Лю Ебинь
Исходная ссылка: [Сводка NeRF] Годовой отчет о ходе работы 3D Vision на основе NeRF — Лю Ебинь, Университет Цинхуа (от Small Sample Vision and Intelligence)
Оглавление
Каталог статей
- Годовой отчет о прогрессе в области трехмерного зрения на основе NeRF
-
- 01 Введение
- 02 Ход исследований на основе NeRF
-
- оптимизация эффективности
- динамическое моделирование
- Реконструкция человеческого тела и создание аватара
- Реконструкция лица и генерация аватара
- Обобщенная реконструкция NeRF
- 3D-генерация
- 3D редактирование
- 4D-генерация и редактирование
- Редактирование света и тени
- улучшение представления
- моделирование сцены
- 03 Годовой тренд развития NeRF
- 04 Перспективы исследований NeRF
01 Введение
НеРФ
NeRF: новый метод синтеза представлений, основанный на дифференцируемом объемном рендеринге и трехмерном представлении нейронного поля.
Два основных элемента NeRF:
- Неявные нейронные поля: идентификация цветовых полей и полей объемной плотности с полностью связанными сетями на основе координат
- Формула визуализации объема: визуализация поля плотности объема цветового поля в виде изображения
NeRF и 3D зрение
Основной метод оптимизации NeRF: сквозной дифференцируемый рендеринг (компактное эффективное трехмерное визуальное представление информации).
С более существенной точки зрения устанавливается связь между двухмерными изображениями и трехмерным миром.
Трехмерное представление и дифференцируемый рендеринг
фоновое значение
Сценарии применения включают в себя:
- Создание и редактирование 3D-контента
- Позиционирование и навигация Robot Vision
- 3D реконструкция и рендеринг
- Реальность движет цифровыми людьми
- Карта просмотра улиц на уровне города
- физическое моделирование
- ……
С момента своего предложения в 2020 году NeRF стал одной из основных исследовательских парадигм в области 3D-видения и способствовал развитию таких задач, как реконструкция, рендеринг, позиционирование, генерация и понимание 3D-видения.
02 Ход исследований на основе NeRF
оптимизация эффективности
Мотивация исследования: Naive NeRF имеет длительное время обучения и длительное время рендеринга. Узкое место вычислений заключается в следующем: сложность = время сетевого запроса с одной точкой выборки x количество точек выборки
01 Используйте разреженное геометрическое выражение
Решение. Используйте разреженные геометрические выражения (разреженные воксели, октодеревья, поверхности и т. д.), чтобы исключить области выборки, не влияющие на интеграцию, и уменьшить количество выборок.
-
NSVF, SNeRG, Plenoxels, Plenoctrees : удалите воксели в негеометрической области, уточните воксели вблизи поверхности объекта и получите разреженные воксели или выражения октодерева.
-
MobileNeRF : извлеките NeRF в разреженную геометрию треугольных сетчатых поверхностей и используйте растеризацию для рендеринга в реальном времени на мобильной стороне.
02 Вокселизация
Идея решения: используйте воксельное пространство для хранения многомерных функций или облегченных сетей для выполнения запросов низкой сложности.
-
KiloNeRF : Пространственная вокселизация, каждый воксель использует облегченную сеть, что значительно снижает объем вычислений и увеличивает рендеринг примерно в тысячи раз.
-
DVGO : благодаря стратегиям обучения, таким как инициализация сетки вокселей с низкой плотностью и активация после интерполяции, поле плотности NeRF и поле цветовых характеристик, выраженное вокселями, напрямую оптимизируются для достижения конвергенции обучения на минутном уровне.
03 Сжатие вокселей (хеш-таблица)
Идея решения:
использовать хеш-технологию для сжатия хранилища воксельной сетки высокого разрешения.
- InstantNGP: создание многомасштабных воксельных сеток для хранения многомерных объектов, сжатие сеток с высоким разрешением с помощью хэша и достижение высокого разрешения и быстрого рендеринга в условиях низкой сложности.
04 Воксельное разложение
Идея решения: воксельная сетка разлагается на низкоразмерное плоское сеточное выражение, а занимаемое пространство сводится к квадратному уровню.
- EG3D: Элементы вокселя, соответствующие трехмерным координатам, определяются как элементы трех ортогональных проекционных плоскостей.
- TensorRF : Разлагает воксельную сетку на сумму тензоров низкого ранга в виде тензорных произведений вектор-плоскость.
- MeRF: воксель низкого разрешения + плоская проекция высокого разрешения
05 Воксельная декомпозиция (продвижение 4D)
Идея решения: следуйте идее декомпозиции 3D->2D и выполняйте декомпозицию 4D->2D
- Tensor4D: 4D-сетка -> 3 3D-сетки -> 3x3=9 2D-сетки
- HumanRF : 4D-сетка -> тензорное произведение 4 3D-сеток с 1D-сеткой, где 3D-сетка использует хеш-сжатие.
- HexPlane, K-Planes: 4D-сетка -> координаты (x, y, z, t) объединяются попарно для получения 6 2D-сеток.
динамическое моделирование
Мотивация исследования: расширить NeRF для представления нестационарного контента и запустить синтез новой точки зрения на динамических сценах.
Ранние работы: D-NeRF, Nerfies, Hyper-NeRF.
Решение: Смоделируйте динамическую сцену как стандартное пространство и поле деформации, используйте поле деформации для сопоставления информации о внешнем виде, наблюдаемой в разных кадрах, со стандартным пространством и реализуйте разделение информации о внешнем виде и движении.
Существующие ограничения и направления улучшения:
01 Динамическое восприятие переднего плана
Мотивация исследования: Для реальных сцен с большой деформацией движения, захваченных монокулярными камерами, существующие методы динамического представления, основанные на полях деформации, не могут точно отделить движение объектов, и сложно восстановить качественные динамические текстуры.
Решение:
улучшите восприятие NeRF динамических передних планов, изменив представления или добавив дополнительную информацию.
- FSDNeRF: метод представления для построения неявного поля скоростей, введения информации о межкадровом оптическом потоке монокулярного предсказания и применения регуляризации во временной области к полю скоростей.
- Nerfplayer: разработайте динамический остаточный NeRF, связанный с предметной областью, в реальном времени, чтобы уменьшить связь информации о движении и динамической текстуры.
- RoDynRF: представляет динамический NeRF для отображения смоделированной сегментации переднего плана и повышения качества синтетического внешнего вида за счет совместной оптимизации позы камеры.
02 Вокселизация
Идея решения:
используйте воксели для хранения высокоразмерных объектов или облегченных сетей для достижения динамического моделирования на уровне минут и рендеринга высокой четкости в реальном времени.
- TineuVox: Преобразование стандартного пространства NeRF в отображение на основе вокселей и использование стратегии многомасштабной выборки признаков для обеспечения глобального восприятия вокселей в процессе оптимизации.
- Пленодеревья Фурье: покадровое моделирование параметров излучения вокселей с использованием параметров Фурье в сочетании с дискретным преобразованием Фурье
- Динамические карты MLP: 3D-сцены представлены комбинациями локальных облегченных сетей на уровне вокселей в сочетании с 2D-сверточными сетями с гиперпараметрами для эффективного создания параметров сети MLP покадрово.
Реконструкция человеческого тела и создание аватара
Мотивация исследования: метод динамического моделирования NERF трудно применить к сценариям, в которых человеческое тело движется в большом диапазоне.
Ранняя работа: используя параметрическую модель человека SMPL в качестве априори, установить крупномасштабную связь движения скелета между кадрами и оптимизировать нежесткое поле деформации и NeRF под стандартную позу.
01 Динамический человеческий аватар
Недавний маршрут: более качественные управляемые цифровые люди с упором на моделирование динамических деталей одежды.
- Ремелли и др.: Внедрение дополнительных сигналов, управляемых изображением, для предоставления более полной информации о внешнем виде.
- AvatarRex: предлагает локальные поля нейронного излучения вместе с локальными функциональными блоками для кодирования мелких деталей человеческой одежды.
- PoseVocab: предлагается библиотека представления поз для кодирования высокочастотных изменений внешности человека в разных позах.
02 Взаимодействие между людьми, объектами и сценами
решение:
- Instant-NVR: сочетание нежесткого отслеживания и Instant-NGP для онлайн-реконструкции людей и объектов NeRF.
- HOSNeRF: Внедрите скрытое кодирование состояния для представления различных состояний взаимодействия людей, объектов и сцен.
- Хоу и др. вводят скрытое кодирование людей и объектов, чтобы отделить контактные отношения между людьми и объектами и синтезировать взаимодействие между людьми и объектами в новых позах.
03 Цифровое человеческое поколение
Решение: SMPL+NERF+ (GAN/диффузия)
- AvatarCLIP: Используя CLIP в качестве априори, сгенерируйте статические цифровые последовательности человека и движения соответственно.
- EVA3D : Предложите комбинированный человеческий NERF для изучения трехмерного человеческого GAN в стандартном пространстве.
- DreamAvatar: с априорной стабильной диффузией изображение, визуализируемое на основе NeRF, ограничено для удовлетворения семантических входных данных.
Реконструкция лица и генерация аватара
01 Разреженная реконструкция точки обзора
Мотивация исследования: Реконструкция лица с разреженной точкой зрения, NeRF легко подходит для каждой точки зрения, а при синтезе новой точки зрения появляются артефакты.
Решение. Введите априорные данные, такие как большие данные о лицах, ключевые точки и шаблоны лиц, чтобы оптимизировать качество реконструкции NeRF.
- LP3D (статический + в реальном времени ): используйте данные лица, сгенерированные EG3D, для обучения, введите одно изображение и сделайте вывод NeRF выражения в трех плоскостях.
- HAvatar (динамический аватар): использование 3DMM спроецированных трехплоскостных ограничений поля нейронного излучения для получения высококачественных динамических аватаров человеческих голов.
- NeRSemble (динамический) : параметры выражений 3DMM вводятся для построения поля деформации семантического пространства с выражениями, которые соответствуют сложной динамике выражений.
02 Генерация аватара лица
Мотивация исследования: метод динамической реконструкции NeRF не может выполнять последующие выражения на модели лица с помощью аудио и видео, а форма рта определяется формой рта.
Недавние исследования: введение предварительно обученных моделей для расширения до реконструкции одного изображения; улучшенное выражение NeRF и выражение выражения.
- Хуанг и др.: Изучение параметров неявных выражений из речи, по сравнению с традиционными выражениями 3DMM, имеет более сильные выразительные способности.
- OTAvatar: для обучения не требуется видео, вводится только изображение одного кадра, а модель NeRF может управляться с помощью генерирования EG3D перед обучением.
Обобщенная реконструкция NeRF
01 Реконструкция на основе диффузионной модели
Мотивация исследования: Наивный NeRF требует интенсивных съемок и самостоятельной подготовки для каждого объекта или сцены, поэтому есть надежда, что NeRF можно будет напрямую рекомендовать по разреженным изображениям с точки зрения.
Ранняя работа: NeRF для изучения пространственного выравнивания функций изображения на основе крупномасштабных данных.
Недавний маршрут: реконструкция NeRF по одному изображению на основе модели диффузии
- ReRDi: получить семантическую информацию входного изображения из предварительно обученной модели скрытой диффузии и ограничить изображение рендеринга новой точки зрения, чтобы оно соответствовало семантической информации.
- GeNVS: предлагается модель диффузии с учетом 3D, а процесс шумоподавления выполняется на основе карты признаков, полученной путем объемного рендеринга.
- Make-It-3D: для дальнейшего улучшения качества текстур предлагается двухэтапный метод оптимизации от NeRF до облака точек.
3D-генерация
Мотивация исследования: использование крупномасштабных априорных 2D-изображений для получения генеративных априорных моделей объектов для поддержки реконструкции разреженных точек обзора и различных задач редактирования.
Недавний маршрут: 3D-генерация объекта категории -> GAN, 3D-генерация общего объекта -> Диффузия
01 Генерация объекта категории 3D GAN
Мотивация исследования: NeRF обладает характеристиками дифференцируемого рендеринга и может оптимизировать параметры сети на основе наблюдения за 2D-изображениями, поэтому NeRF объединяется с GAN для создания генеративного поля нейронного излучения и обучения генерации 3D-контента.
Решение: сеть MLP на основе поля нейронного излучения использует стратегию конфронтационного обучения GAN для изучения генеративного поля нейронного излучения из 2D-изображений и контролирует его геометрию и текстуру с помощью случайного шума для генерации неявных кодов.
02 Генерация объекта категории 3D GAN (улучшение в трех плоскостях)
Мотивация исследования: 3D GAN ограничена потреблением памяти и возможностями выражения MLP, а разрешение сгенерированных результатов низкое.
Решение и нововведение: предложено трехмерное выражение на основе трех плоскостей, а высокочастотный сигнал поля нейронного излучения сохраняется в трех плоскостях, чтобы уменьшить вес сети MLP.Не теряя выразительной способности, это значительно уменьшает потребление памяти и повышает скорость рендеринга.Используйте эффективный 2D-стильGAN для создания триплана с высокочастотными деталями для повышения качества генерации;используйте сверхвысокое разрешение 2D для улучшения разрешения рендеринга.
03 Генерация объекта категории 3D GAN (сверхвысокое разрешение)
Мотивация исследования: 2D-сеть сверхвысокого разрешения объединяет перспективную информацию и функции изображения, нарушая согласованность 3D.
Решение и инновация: замените сверхвысокое разрешение 2D на сверхвысокое 3D-разрешение
- Gram-hd : установить набор неявных поверхностных многообразий в поле нейронного излучения и выполнить сверхразрешение над поверхностными многообразиями.
- Mimic3D : позволяя ветви 3D-рендеринга генератора синтезировать изображения, имитирующие изображения, созданные его ветвью 2D-супер-разрешения, это позволяет 3DGAN генерировать высококачественные изображения, сохраняя при этом их строгую согласованность с 3D.
04 Генерация общих 3D-объектов (масштабирование 2D)
Мотивация исследования: большие 2D-генеративные модели обладают сильной способностью генерировать изображения из текста; NeRF имеет возможность представлять непрерывные и сложные 3D-объекты, а его метод рендеринга представляет собой дифференцируемый и обратимый рендеринг, поэтому сетевые параметры поля излучения могут быть обратная оптимизация с помощью 2D-контроля для достижения
3D-генерации общих объектов или сцен.
Решение: использовать предварительно обученную двухмерную генеративную большую модель в качестве априорной, использовать потери выборки дистилляции оценок (SDS), минимизировать расхождение KL
распределения между дифференцируемым изображением рендеринга NeRF и изображением, сгенерированным диффузионной моделью, оптимизировать NeRF. параметры, и реализовать текст для трехмерного поколения. Представитель работы: Dreamfusion, Magic3D, Fantasia3D
Мотивация исследования: цель оптимизации Score Distillation Sampling (SDS) состоит в том, чтобы сделать визуализируемое изображение одного NeRF удовлетворяющим максимальной вероятности распределения изображения предварительно обученной модели по заданному тексту, чтобы NeRF был оптимизирован для соответствия к определенному оптимальному распределению изображения.Значения: Сгенерированные 3D-модели перенасыщены, сглажены и лишены разнообразия
Решение: Распределение изображения предварительно обученной модели по заданному тексту соответствует набору (большему или равному единице) распределения NeRF, а вариационный вывод параметров NeRF выполняется с точки зрения вероятности. Вариационная оценка дистилляционной выборки (VSD) изменяет цель оптимизации с одноточечного NeRF на распределение NeRF; использует частицы для моделирования распределения NeRF и итеративно оптимизирует эти частицы, чтобы распределение визуализированного изображения было близко к распределению NeRF. предварительно обученная модель, таким образом генерируя Разнообразие и качество детализации 3D-моделей выше.
Генерация объекта категории 3D (собственное 3D)
Мотивация исследования: метод использования Diffusion для оптимизации NeRF (2D upscaling) требует много времени (часы); сеть MLP в поле нейронного излучения не имеет явной структуры и не может быть напрямую оптимизирована на основе диффузии; объем памяти, необходимый для 3D диффузия отличается от вычислительной нагрузки почти невыносимой,
Решение: Построить диффузионную модель с трехмерным восприятием: представить поле нейронного излучения в виде явной трехплоскостной структуры (Rodin, NFD, SSDNeRF), воксельной сетки (DiffRF), изучив процесс шумоподавления поля нейронного излучения, вы может генерировать поля нейронного излучения непосредственно из шума без оптимизации. В настоящее время поддерживается только создание объекта категории.
3D редактирование
01 Редактирование объектов/сцен NeRF
Мотивация исследования: Традиционные поля нейронного излучения подходят или генерируют сцены или объекты, которые нельзя редактировать.
Решение: используйте различные сети и скрытые векторы для разделения формы и внешнего вида; пользователи редактируют 2D-рендеринг изображений, используют сеть и скрытые векторы для оптимизации обратного распространения или прямого редактирования.
Ранние работы: EditNeRF, NeRF-Editing, NeuMesh, ARF
02 Редактирование NeRF на основе GAN
Мотивация исследования: 3D GAN, такие как PiGAN и GRAF, генерируют насыщенные 3D-лица, но их нельзя отредактировать с высокой степенью детализации.
Решение: сопоставление внешних сигналов с полями нейронного излучения, редактирование их характеристик.
- IDE3D : предложить генеративное нейронное семантическое поле, разделяющее геометрию и материал, и выровнять 3D-семантику и геометрию за счет дополнительного вывода семантических масок в геометрической ответвленной сети; принцип редактирования заключается в том, что редактирование 2D-семантической карты сопоставляется с семантическим полем, тем самым редактируя 3D семантика и геометрия для согласования.
- Next3D : предлагается динамическое трехплоскостное выражение, основанное на нейронных текстурных картах.Управляющий сигнал выражения будет растеризован через нейронную текстуру, вызывая деформацию элементов плоскости, а затем визуализируя изображение с соответствующим выражением.
Представитель работы: IDE3D, NeRFaceEditing, AnifaceGAN, Next3D
03 Редактирование NeRF на основе Diffusion
Мотивация исследования: на основе диффузионной модели графа Винсента использование текста в NeRF для более интуитивного и интерактивного редактирования 3D или 4D.
Решение: использовать диффузионную модель для итеративного редактирования обучающей выборки и одновременно оптимизировать параметры поля нейронного излучения, чтобы результат рендеринга NeRF и редактируемое изображение, сгенерированное заданным текстом, стремились к согласованности;
Представительская работа: InstructNeRF2NeRF, Instruct3D-to-3D
4D-генерация и редактирование
Генерация и редактирование динамического NeRF на основе Diffusion
Мотивация исследования: существующая модель распространения может быть отредактирована только для создания 2D-изображений, а с помощью динамического NeRF ее можно обновить с 2D до 4D для обеспечения высококачественного и согласованного редактирования и генерации 4D.
- Control4D : объединение Tensor4D и GAN для реализации 4D GAN, использование 4D GAN для изучения распределения изображения, созданного диффузионной моделью, в разных временных промежутках, избегая прямого наблюдения за изображением для достижения высококачественных эффектов редактирования и генерации, генерируемое наблюдение с помощью дискриминатора 4DGAN Сигнал более плавный, чем в диффузионной модели, что улучшает пространственно-временную согласованность редактирования 4D-сцены и ускоряет сходимость сети.
Редактирование света и тени
Мотивация исследования: расширить возможности NeRF для представления информации о материалах, чтобы реализовать редактирование света и тени. ,
Предыдущие работы: NeRFactor, InvRender, PhySG.
Решение: разложите цветовое представление NeRF на «Нормальный + BRDF + Освещение» и рекомбинируйте рендеринг, чтобы реализовать повторное освещение и редактирование материала.
улучшение представления
Мотивация исследования: неявное поверхностное поле имеет преимущество в представлении геометрии, но его трудно визуализировать с помощью метода пошагового луча NeRF: если неявная поверхностная функция преобразуется в функцию плотности с использованием наивного метода, положение поверхности, оцениваемое лучевой интеграл будет несколько ближе на реальной поверхности.
Ранние работы: VolSDF, NeuS, DoubleField, UNISURF
Идеи решения: 1) Перераспределить вес интеграла по точкам отбора света так, чтобы конечный интеграл мог попасть на поверхность; 2) Перераспределить точки отбора света так, чтобы точки отбора были сосредоточены на поверхности.
моделирование сцены
Цель исследования: Расширение NeRF для представления большого содержимого сцены, позволяющее точно реконструировать и синтезировать новые точки зрения для неструктурированных коллекций изображений с большими пространственными интервалами и сложными геометрическими текстурами.
Ранние работы: NeRF++, Mip-NeRF, Mip-NeRF 360
Идея решения: За счет введения полнопространственной нелинейной параметрической модели решается проблема моделирования NeRF в неограниченных 3D-сценах, а за счет введения интегрированного позиционного кодирования с учетом гауссовской области точек дискретизации — проблема размытия и алиасинга в NeRF при решается многомасштабная реконструкция.
03 Годовой тренд развития NeRF
Тенденция 1: Высококачественное динамическое моделирование
Хотя метод NeRF до 2022 года превосходно работает в статических сценах, еще есть возможности для улучшения моделирования сложных динамических сцен . В этом году в этом направлении была проделана большая работа, в том числе не только усовершенствование 4D моделирования общих динамических сцен, но и усовершенствование моделирования человеческих лиц и тел, часть работ достигла даже потрясающих результатов в предпосылке обеспечения производительности в реальном времени.
Тренд 2: Сочетание с крупными моделями
Посадочное применение больших моделей уже не остановить. Много работы в этом году было посвящено объединению генеративных больших моделей с NeRF , чтобы обеспечить возможность генеративного авторинга NeRF. После объединения с большой моделью NeRF больше не ограничивается реконструкцией реальных объектов или сцен, а обладает творческим потенциалом «создания чего-то из ничего».
Тенденция 3: Встраивание более богатой информации
Работа NeRF до 2022 года в основном сосредоточена на рендеринге с новой точки зрения, поэтому рассматривается только моделирование геометрии и текстуры. В работе этого года исследователи представили NeRF больше информации, включая богатые свойства материалов и семантические коннотации более высокого уровня . Введение семантической информации еще больше расширяет потенциальные сценарии применения NeRF.
Тенденция 4: Применить к другим полям
В прошлом году NeRF привлекал внимание только в области 3D-видения. В этом году NeRF добился «разрыва круга» и также применялся в областях робототехники, автономного вождения и лечения , Его новая возможность генерации точек зрения может эффективно помочь в создании данных и понимании сцены в этих областях.