Диалог с Xiaohongshu Jianhan: Как интегрировать кросс-направленные технологии и оптимизировать общую ситуацию, чтобы создать более интеллектуальную аудио- и видеосистему? ...

Примечание редактора: в эпоху искусственного интеллекта, когда ChatGPT вызвал технологическое безумие, создание более интеллектуальной аудио- и видеосистемы стало общей целью для практиков в области аудио- и видеосвязи.

Однако для интеллекта аудио- и видеосистем у каждого практикующего есть своя уникальная точка зрения и понимание, точно так же, как «тысяча Гамлетов в глазах тысячи людей». Хотя единого стандартного ответа не существует, мы взяли интервью у Цзяньханя, аудио- и видеоархитектора Xiaohongshu, чтобы рассказать об интеллекте в его сердце: разумно воспринимать качество, как человеческий глаз, и разумно использовать изображения последнего поколения. технология для улучшения и восстановления качества изображения Интеллектуальное использование ИИ для улучшения эффекта кодека является интеллектуальным.

Интеллект не ограничивается этим, более высокий интеллект аудио- и видеосистем может заключаться в межнаправленной интеграции технологий и общих возможностях оптимизации системы для достижения, казалось бы, противоречивых бизнес-целей. Как Xiaohongshu, начинающий участник рынка видеоприложений, выбирает свою цель?

Цзяньхан сказал: «Во-первых, с точки зрения технического направления, технические возможности одной точки должны сочетаться с бизнес-приоритетами; во-вторых, сосредоточиться на итерации некоторых технических платформ с долгосрочной ценностью и преимуществами, таких как облачная «узкополосная связь высокой четкости». , комбинированное устройство и облако сверхвысокого разрешения, оценка качества человеческого восприятия и т. д., наконец, реализовать интеллектуальную систему, которая гарантирует удобство работы пользователей и снижает затраты, чтобы достичь оптимального баланса бизнес-целей.

Надеюсь, это сработает для вас, вот разговор:

LVS: Можете ли вы дать обзор тем, которыми вы будете делиться на LiveVideoStackCon 2023 Shanghai?

Цзяньхань: Тема, которой я поделился, — «Практика облака устройств в сочетании с оптимизацией качества изображения и пропускной способности на основе воспринимаемого человеком качества», которая также является ключевым проектом Xiaohongshu на фоне «снижения затрат и повышения эффективности». Если вы просто посмотрите на реализацию алгоритма сверхвысокого разрешения на стороне устройства, академические круги и промышленность фактически провели длительное исследование, основанное на этом техническом моменте, но для различных бизнес-сценариев и интегрированных систем технология сверхвысокого разрешения на стороне устройства отличается с точки зрения бизнес-целей и будут очевидные различия в техническом направлении.

Например, для нового аппаратного устройства ему нужно только настроить и оптимизировать алгоритм на основе своего аппаратного ускорителя. Однако устройства конечных пользователей для видеосервисов и приложений разнообразны и сложны, а пользовательский опыт, оптимизированный с помощью технологий, обычно трудно полностью оценить, а степень охвата напрямую влияет на размер дохода.

В этом сценарии направление эволюции технологии сверхвысокого разрешения на стороне устройства больше не заключается в разработке и оптимизации независимых алгоритмических модулей, а представляет собой комбинацию всего процесса от производства оборудования для потребления в облаке, оценки качества, воспринимаемой человеком, до управления трансляцией и устройства. Сквозная оптимизация каждого канала обработки видео значительно высвободит потенциал конечного сверхразрешения и в определенной степени решит упомянутые выше технические проблемы. Этот обмен является нашим систематическим обобщением и практикой в этой теме. Конечно, это также направление долгосрочного строительства. В настоящее время мы получили некоторые преимущества. Я считаю, что в рамках этой структуры будет много места для технологических повторение в будущем.

LVS: Что вы думаете о треугольной зависимости между вычислительной мощностью, стоимостью и пользовательским опытом?

Цзяньхань: Со статической точки зрения, без какой-либо технической оптимизации, вы можете рассмотреть возможность использования большей вычислительной мощности и более высоких затрат для улучшения взаимодействия с пользователем.Например, большая вычислительная мощность может поддерживать более высокую сложность и многое другое.Внедрение алгоритмов хорошего эффекта также улучшает своевременность обработки алгоритма; для улучшения пользовательского опыта мы можем увеличить битрейт потребления видео, что приводит к увеличению затрат на пропускную способность. Или, наоборот, сэкономьте вычислительную мощность и затраты, пожертвовав некоторым удобством для пользователя. Есть много таких компромиссов в области аудио и видео, а также есть много особых случаев.Например, увеличение скорости передачи данных и разрешения потребления видео обычно улучшает взаимодействие с пользователем, но когда сеть не очень хороша, это может привести к зависанию видео и ухудшению пользовательского опыта. Поэтому я предпочитаю анализировать преимущества и недостатки каждого фактора, смотреть, какое влияние окажет каждая переменная на текущее состояние системы, анализировать и принимать решения в каждом конкретном случае для конкретных бизнес-целей.

С динамической точки зрения, поскольку технология постоянно повторяется, можно одновременно улучшить пользовательский опыт и снизить затраты за счет технической оптимизации. Например, текущие стандарты кодирования каждого поколения могут сэкономить 30-50% скорости передачи данных при том же качестве, что означает, что пользовательский опыт в основном не изменится, но стоимость полосы пропускания значительно сэкономится. Упомянутая выше технология сверхвысокого разрешения на стороне устройства также имеет аналогичные преимущества. Помимо технической оптимизации, в игру вступает множество стратегий. Например, стоимость пропускной способности CDN в настоящее время взимается в соответствии с пиковым периодом.Стратегия здесь заключается в том, что я могу увеличить скорость передачи данных в непиковые периоды, чтобы улучшить взаимодействие с пользователем, но это не увеличивает затраты на пропускную способность. Конечно, существует также проблема точного прогнозирования часов пик.

Таким образом, в области аудио и видео это на самом деле система, а не отдельная точка, мы можем достичь, казалось бы, противоречивых бизнес-целей одновременно с точки зрения алгоритмов и системных стратегий.

LVS: Столкнувшись с тенденцией пользователей, стремящихся к более высокому разрешению и более экстремальным видео, технология видеокодека очень важна.Что касается этого и других технических направлений, есть ли у вас какие-либо цели для вашей команды?

Цзяньхань: Итерация технологии видеокодека очень важна. В настоящее время мы внедрили стандарт поколения H.265 и достигли высокой степени охвата. Стандарт AV1 находится в стадии разработки, и началась некоторая экспериментальная проверка. H.266 также может появиться в будущем.

Кроме того, в эпоху искусственного интеллекта создание более интеллектуальной обработки аудио и видео является одной из наших целей, включая различные технологии улучшения и восстановления качества изображения, технологии анализа качества и контента, а также технологии интеллектуального кодирования. С точки зрения технического направления, прежде всего, одноточечные технические возможности будут сочетаться с бизнес-приоритетами, такими как использование облачной технологии сверхвысокого разрешения для увеличения доли видео 1080P, а также улучшение текстуры и четкости видео для общих сцен. Кроме того, мы будем повторять некоторые технические структуры с долгосрочной ценностью и преимуществами, такие как «узкополосная связь высокой четкости» в облаке, сверхвысокое разрешение в сочетании с устройством и облаком, а также оценка качества человеческого восприятия.

На самом деле, для интеллекта обработки аудио и видео еще много места.Лично есть две основные проблемы в понимании:

1. Обработка аудио и видео не является единой технологией. Судя по нынешнему технологическому развитию, это трудно реализовать на большой модели. Более интеллектуальная система обработки видео должна включать в себя семантическое понимание высокого уровня, обработку изображения низкого уровня и кодек. своего рода слияние, и типичный портрет таланта текущего направления алгоритма состоит в том, чтобы сосредоточиться на определенном техническом моменте. Я верю, что люди со сложными способностями и люди, умеющие работать с алгоритмами, обладающие системным пониманием, получат возможность совершить прорыв в будущем.

2. Интеллект означает работу с большими данными.Обучающие данные ChatGPT могут поступать из высококачественных вопросов и ответов, крупномасштабное обучение посредством обучения с самостоятельным наблюдением, создание высококачественных и точных наборов данных будет более сложным в области аудио и видео. , Groudtruth и модели деградации Точность обычно является первой критической проблемой, с которой сталкиваются аудио- и видеоалгоритмы.

В настоящее время исследования в отрасли больше сосредоточены на интеллектуальных возможностях одной точки, таких как алгоритм повышения качества изображения с использованием технологии генерации изображений и использование ИИ для повышения эффективности подмодулей кодека и т. д. Все это технические моменты, которые мы можем проработать, но я также надеюсь провести больше исследований и практики в области межнаправленной интеграции технологий и возможностей глобальной оптимизации, чтобы найти эффективные способы улучшения интеллекта аудио- и видеосистем.

LVS: У каждого есть свое субъективное хорошее и плохое, так как же проверить, эффективен ли алгоритм оптимизации качества изображения для субъективного улучшения качества?

Цзяньхань: Этот вопрос на самом деле является подтверждением того, что было сказано в ответе на предыдущий вопрос: «Создать качественные и точные наборы данных будет сложнее в области аудио и видео». качества изображения. . Тем не менее, существуют международные стандарты, которыми следует руководствоваться. Проще говоря, в контролируемой среде оцените, улучшилось ли качество изображения с помощью экспертной оценки и публичного тестирования. Общедоступное тестирование — это результат оценки нескольких людей, собирающих одно и то же видео, с помощью статистических методов . для устранения индивидуальных различий, хотя и не обязательно соответствует критериям суждения определенного лица, но представляет мнение большинства.

Конечно, из-за временных и эксплуатационных затрат субъективная экспертная оценка и публичное тестирование могут быть проверены только на небольшом количестве данных, а реальный запуск должен быть протестирован рынком. сравнение некоторых ключевых деловых и технических показателей производительности на рынке. Следует отметить, что в эксперименте АБ существует множество влияющих факторов, не все из которых связаны с качеством изображения, и экспериментальные данные необходимо анализировать в сочетании с планом.

LVS: Поскольку это очень большое сообщество пользовательского контента, источники изображений или видео Xiaohongshu можно назвать очень широкими, поэтому иногда реальная среда съемки не контролируется, что приводит к тому, что качество контента не может быть гарантировано. Как вы справляетесь с такой проблемой оценки качества?

Цзяньхань: В этом году мы внедрили алгоритм оценки качества видео без эталона на основе ИИ, чтобы решить эту проблему. Он оценивает абсолютное качество любого видео на основе качества, воспринимаемого человеческим глазом. Как вы сказали, разнообразие видео пользовательского контента имеет решающее значение для управления данными. Это сложная задача для алгоритмов ИИ. Кроме того, когда видео обрабатывается по всей видеосвязи, качество сильно меняется, что приводит к большей сложности, такой как редактирование спецэффектов, многоуровневое улучшение видео и транскодирование и т. д. Таким образом, набор данных должен быть тщательно разработан, чтобы не только включать основные проблемы с качеством в Интернете, но и активно создавать некоторые случаи, которые трудно собрать непосредственно из линии.Основной вопрос заключается в том, как использовать как можно меньше выборок данных. для представления рынка.Здесь есть некоторые технические средства, такие как методы выборки данных.

С точки зрения дизайна алгоритма основное внимание уделяется тому, как эффективно извлекать признаки качества. Здесь нам необходимо иметь полное представление о процессе проблем с качеством, например о том, как редактирование и перекодирование в видеоссылках повлияет на качество. Я резюмирую несколько ключевых баллов, чтобы поделиться с вами:

1. Важна информация как о глобальном составе, так и о локальной текстуре, характеристики, связанные с качеством, отражаются в локальных текстурах, а степень деградации определяется глобальным восприятием 2. Охватывая широкий спектр пространственно-временной информации и зависимостей, человеческое восприятие качества включает в себя общее семантическое понимание, область внимания, понимание творческого замысла и т. д. Многие операции обработки видео будут влиять на качество в большом пространственно-временном диапазоне, например распределение битрейта, кодирование ROI и т. д. 3. Величина и полнота наборов данных для оценки качества намного ниже, чем у задач CV, таких как классификация и распознавание. Нам нужны некоторые средства для явного содействия извлечению признаков качества. Одним из методов является добавление упорядоченных образцов качества или использование оценки качества Агент Задача алгоритма используется для повышения качества данных и самоконтролируемого обучения признаков качества.

▲Отсканируйте QR-код на картинке или нажмите « Прочитать исходный текст » , чтобы просмотреть более интересный контент ▲

Supongo que te gusta