Помогая сложным изображениям, таким как VR / AR, быть чрезвычайно высокого разрешения, Volcano Engine выиграл двойной чемпионат в соревновании NTIRE.

Практическое внимание

47444f5387055eae1270db7c8be94fd0.gif

Сухие товары не теряются

Недавно на конкурсе NTIRE2023 в рамках семинара CVPR были объявлены результаты конкурса.На треке точности бикубической интерполяции бинокулярного сверхвысокого разрешения и  сверхвысоком разрешении панорамного изображения 360 ° лаборатория Volcanic Engine Multimedia Lab выиграла двойной чемпионат со своей собственной разработкой. Алгоритм Технические возможности достигли ведущего в отрасли уровня.

NTIRE (New Trends in Image Restoration and Enhancement) — это новое международное соревнование по компьютерному зрению, которое ежегодно проводится в рамках крупнейшей международной конференции по распознаванию образов и машинному зрению CVPR (CCF-A). Конкурс направлен на поощрение ученых и исследователей к изучению новых технологий и методов восстановления изображений и улучшения компьютерного зрения, а также на содействие академическим обменам.Он привлек широкое внимание и участие в области компьютерного зрения, привлекая многие университеты и известные компаний отрасли принять участие.

ca8db2eac76231fb4b37841948884678.png

4d91d2ac351b877fd89ca5764955ce55.png

Результаты конкурса бинокулярных очков

338a5613176b3fdceee1e160d69e4931.png

c61a70c9f665a5972a9c01688426a859.png

Результаты конкурса 360° Panoramic Image Super Score

Трек бинокулярного сверхвысокого разрешения (верность бикубической интерполяции): собственная разработка сети HTCN, которая значительно улучшает эффект разрешения изображения стереозрения.

С развитием технологии бинокулярной обработки изображений приложения для бинокулярных камер в мобильных телефонах, виртуальная реальность, автономное вождение и роботы становятся все более и более популярными, а бинокулярные изображения с высоким разрешением содержат больше деталей текстуры и имеют лучший эффект субъективного зрения, а также могут улучшить качество изображения. выполнение последующих задач, поэтому стереозрение привлекает все больше и больше внимания научных кругов и промышленности. Простой и прямой способ сверхразрешения бинокулярного изображения заключается в применении алгоритма сверхразрешения одиночного изображения к изображениям в левой и правой перспективе соответственно, но при этом игнорируется информационная корреляция между левой и правой перспективами бинокулярного изображения. изображения в левой и правой перспективе могут использоваться в процессе сверхвысокого разрешения. Дополнительная информация между левой и правой перспективами является взаимной ссылкой, а также обеспечивает дополнительные априорные ограничения для сверхвысокого разрешения бинокулярного изображения. Поэтому очень важно разумно использовать дополнительную информацию между левой и правой перспективами, чтобы улучшить характеристики сверхвысокого разрешения бинокулярных изображений . Целью этого конкурса является установление эталона для бинокулярного изображения SR с использованием субдискретизации бикубической интерполяции и использование окончательного индекса точности в качестве индекса оценки, чтобы предоставить исследователям общие возможности поделиться своими знаниями и идеями для улучшения алгоритмической производительности и облегчения разработка методов сверхвысокого разрешения стереоскопических изображений.

В задачах восстановления изображений часто используются многоэтапные стратегии обработки. Хотя методы на основе Transformer показали высокую эффективность в задачах сверхвысокого разрешения с одним изображением, они еще не продемонстрировали значительных преимуществ по сравнению с методами на основе CNN в задачах стереоскопического сверхвысокого разрешения. Это можно объяснить двумя ключевыми факторами: во-первых, современные трансформеры со сверхвысоким разрешением для одного изображения не могут использовать дополнительную стереоинформацию во время обработки; в задаче разрешения недостаточно данных. Чтобы решить эти проблемы, команда предложила гибридную сеть Transformer и CNN Attention Network (HTCAN), которая использует сеть на основе Transformer для улучшения одного изображения и сеть на основе CNN для слияния стереоскопической информации. Кроме того, команда приняла стратегию обучения с несколькими патчами и увеличила размер окна, чтобы расширить рецептивное поле . Команда также пересмотрела другие передовые методы, такие как увеличение данных, синтез данных и синтез моделей, чтобы уменьшить переоснащение и систематическую ошибку данных, и, наконец, превзошла других конкурентов и заняла первое место.

Ссылка на статью: https://arxiv.org/pdf/2305.05177.pdf

34b97ca519b446a670eb1f575ed11070.png

Общая бинокулярная стратегия сверхвысокого разрешения

Отслеживание панорамного изображения на 360° со сверхвысоким разрешением: двухступенчатая структура улучшает разрешение изображения во всех направлениях

Панорамное изображение 360° — это изображение, которое может представлять полный спектр перспектив и может обеспечить более захватывающий и интерактивный опыт, поэтому оно широко используется в приложениях VR/AR. Однако из-за таких причин, как используемый объектив «рыбий глаз», разрешение панорамного изображения 360° низкое, что влияет на четкость и детализацию изображения. Поэтому важным направлением исследований стало улучшение разрешения панорамных изображений 360°.

Суперразрешение — это метод обработки изображений, целью которого является увеличение разрешения изображения путем восстановления деталей изображения с высоким разрешением из изображения с низким разрешением. В панорамных изображениях с углом обзора 360° технология сверхвысокого разрешения может улучшить четкость и детализацию изображений путем восстановления отсутствующей высокочастотной информации из панорамных изображений с низким разрешением, тем самым улучшая взаимодействие с пользователем.

В этом конкурсе команда предложила  двухэтапную структуру для панорамных изображений сверхвысокого разрешения 360° . На первом этапе используются две ветви: Модель A, которая содержит панорамный деформируемый блок с учетом положения (OPDB) и повышающую дискретизацию Фурье; Модель B добавляет модуль слияния пространственных частот (SFF) к модели A. Модель A направлена ​​на улучшение возможностей извлечения признаков из информации о местоположении изображения 360°, в то время как модель B дополнительно фокусируется на высокочастотной информации изображений 360°. На втором этапе, на основе структуры модели А, 360-градусное изображение усиливается с тем же разрешением. Кроме того, команда собирает сферические данные из общедоступных наборов данных и использует сеть деградации для создания изображений с псевдонизким разрешением, чтобы улучшить возможности подбора Transformer. Метод, предложенный командой, показал отличные результаты и выиграл чемпионат NTIRE 2023 360 ° панорамного изображения со сверхвысоким разрешением.

Ссылка на статью: https://arxiv.org/pdf/2304.13471.pdf

4f9a895a264e6c9910d69063f57bed1d.png

Общая сферическая стратегия превышения очков

7509d27a2374293e99cca90a8c93b029.png

Сетевая структура модели A и модели B

Мультимедийная лаборатория Volcano Engine добилась прорыва в области бинокулярной точности бикубической интерполяции сверхвысокого разрешения и сверхвысокого разрешения панорамного изображения 360 ° и выиграла чемпионат по двухдорожечной гонке. Два технических решения могут помочь пользователям получить более четкие и подробные эффекты отображения изображений в разнообразных и сложных сценах, а также способствовать развитию видеоиндустрии в более интеллектуальном и эффективном направлении. Среди них технология сверхвысокого разрешения панорамных изображений 360 ° была применена в приложении Xingfuli и открыта для предприятий через продукт veImageX движка вулкана.

Мультимедийная лаборатория Volcano Engine — исследовательская группа ByteDance, посвященная изучению передовых технологий в области мультимедиа и участию в международной работе по стандартизации.Многие из ее инновационных алгоритмов, программных и аппаратных решений широко используются в мультимедийных продуктах, таких как Douyin и Xigua Video., а также предоставлять технические услуги корпоративным клиентам Volcanic Engine. С момента создания лаборатории многие статьи были выбраны для лучших международных конференций и ведущих журналов, а также получили несколько чемпионов международных технических конкурсов, награды за отраслевые инновации и награды за лучшую работу.

Volcano Engine — это платформа облачных сервисов в рамках ByteDance, которая открывает методы роста, технические возможности и инструменты, накопленные в ходе быстрого развития ByteDance, для внешних компаний, предоставляя облачную основу, распространение видео и контента, большие данные, искусственный интеллект и разработку. а также услуги по эксплуатации и техническому обслуживанию, чтобы помочь предприятиям добиться непрерывного роста цифровой модернизации.

Присоединяйтесь к нам

Архитектура видео ByteDance – это промежуточный отдел ByteDance, работающий с видео. Он поддерживает продукты ByteDance по требованию, прямую трансляцию, общение в реальном времени, изображения и развитие мультимедийного бизнеса. Цель – стать лидером в области мультимедийных решений в отрасли и создать окончательный видеотехнологии / опыт обслуживания продуктов.

В настоящее время группа разработчиков видеоархитектуры предоставила предприятиям технические возможности и услуги через движок вулкана ByteDance.

Контакты двигателя вулкана

Отсканируйте QR-код ниже или щелкните конец статьи, чтобы прочитать исходный текст, чтобы отправить свое резюме, присоединяйтесь к нам, и мы вместе станем лидером в области мультимедиа!

d176b8e99b061ad7321639da9f9ef846.png

Инженер по алгоритмам видеокодеков-мультимедийная лаборатория (Пекин/Шанхай/Ханчжоу/Шэньчжэнь открыты вакансии)

fe61349980e6320832dae66642312ff6.png Нажмите «Читать исходный текст», чтобы немедленно доставить

Supongo que te gusta

Origin blog.csdn.net/ByteDanceTech/article/details/130695684
Recomendado
Clasificación