El futuro ha llegado, ¿se puede seguir "enrollando" la codificación de video?

a8930a25903c5cc521a90e3c4d32ae97.jpeg

¿Qué tipo de futuro de codificación estamos persiguiendo?

Nube 

Imaginar

Penetración de video omnipresente, crecimiento de tráfico explosivo, requisitos de tecnología de escena diversa y experiencia de video "sin compromisos" de los usuarios... El rápido desarrollo de la industria de audio y video está acompañado por "actualizaciones estándar de codificación lenta", ", "problemas de costos provocados por la complejidad de la codificación" y muchos otros desafíos.

¿La codificación de video sigue "rodando"?

¿Qué tipo de tecnología de codificación de video puede satisfacer el equilibrio necesario entre experiencia y costo?

Codificación de video orientada a la visión artificial, video de realidad virtual, video de aplicaciones inteligentes... las olas están llegando, ¿cómo se desarrollará el "estilo futuro" de la codificación de video?

Este artículo fue planeado y entrevistado por IMMENSE, Chen Gaoxing, la persona a cargo del servidor de codificación de video de "Alibaba Cloud Video Cloud" y LiveVideoStack.

Hay muchas demandas y más contradicciones.

¿Está congelada la velocidad de iteración de la tecnología? ¿Ha llegado a su fin la Ley de Moore?

La tecnología de códec de video aumentará la tasa de compresión en un 50% en aproximadamente 10 años, pero la velocidad de actualización de estos "diez años de arduo trabajo" no ha sido capaz de mantenerse al día con la velocidad de expansión de la información de video.

El aumento en la complejidad de la codificación provocado por el nuevo estándar de codificación es mucho mayor que la mejora de la potencia de procesamiento de la CPU, y es difícil para la tecnología de codificación "inclusiva".

Con la expansión y exploración del video en más escenarios de aplicaciones, es difícil que un solo estándar de codificación cubra una variedad de requisitos de aplicaciones de video...

Obviamente, por un lado, la llegada de la era de AR y VR, así como la alta resolución de 4K y 8K, la alta velocidad de cuadros de 60-120 fps y la amplia gama de colores de 10-12 bits hacen que la información de el video en sí se expande varias veces, por otro lado, es el apilamiento y el reemplazo de recursos, la eficiencia de compresión y el progreso de la "Ley de Moore" han llegado a su "fin". Además, la "latencia ultrabaja" del video requiere velocidad de codificación, todo lo cual hace que la "contradicción" entre la experiencia de video, el ancho de banda, el costo informático y la velocidad de codificación sea más obvia.

Por lo tanto, siempre nos enfrentamos a requisitos de codificación de mayor definición, más tiempo real y más eficientes, así como a muchas "contradicciones" entre la tecnología y los requisitos.

En el contexto de estas "contradicciones" que parecen difíciles de equilibrar, también hay muchas cuestiones que merecen una mayor exploración:

➤ ¿Dónde los estándares de codificación existentes no están prestando suficiente atención?

➤ ¿Cómo hacer un buen uso primero de los estándares de codificación existentes?

➤ ¿Qué dimensiones no están cubiertas por las tecnologías de codificación de video existentes?

➤ Además de la tasa de bits y la calidad, ¿la codificación de video debe enfocarse en más objetivos?

➤ ¿Cómo romper la inercia del pensamiento técnico de la mejora de la eficiencia de compresión de video de reemplazo de apilamiento de recursos?

……

A partir de las necesidades, las contradicciones y los problemas, se puede extraer una comprensión más profunda: el objetivo de la optimización de la codificación ya no solo considera las dimensiones tradicionales de calidad, complejidad y demora subjetivas y objetivas, sino también la facilidad de uso y la multidimensionalidad del procesamiento de IA. Capacidades Adaptabilidad del rendimiento bajo la plataforma, etc.

La propuesta de un problema siempre va acompañada de la elección de las ideas de resolución del problema y de la dirección técnica.

Por lo tanto, promueve la evolución de la arquitectura de códecs de la tradicional a una más inteligente y compatible.

58dcc12322c07d1e6247460d233c9f2f.png

objetivo final, algo sesgado

¿Qué debemos buscar exactamente al optimizar los códecs?

Cuando Alibaba Cloud Video Cloud propuso el concepto de "HD de banda estrecha" a la industria en 2015 y lanzó oficialmente la marca de tecnología HD de banda estrecha y la comercializó en 2016, este método de "reducir la tasa de bits" y "mejorar la definición" tiene en cuenta cuenta, se ha convertido casi en una solución común en la industria.

Sin embargo, tras una continua evolución hasta la actualidad, se ha popularizado en la industria una especie de "involución", es decir, la búsqueda desmedida de optimización de "ciertos datos índice objetivos".

Sin embargo, con una perspectiva de video centrada en las "personas", en términos de la experiencia del usuario final, los videos deben prestar más atención a la experiencia subjetiva. Por el contrario, en el proceso real de investigación y desarrollo, especialmente la optimización del codificador, generalmente se basa en "indicadores objetivos activos" como PSNR, SSIM y VMAF-NEG.

Es cierto que en la mayoría de los casos, la mejora de la calidad objetiva puede reflejarse en cierta medida en la mejora de la calidad subjetiva, especialmente cuando el tamaño de la muestra es lo suficientemente grande y la mejora de la calidad objetiva es grande, los indicadores objetivos y los sentimientos subjetivos puede mostrar consistencia.

Sin embargo, en la práctica de optimización de HD de banda estrecha, también hay algunas "inconsistencias" en la optimización subjetiva y objetiva.

Por ejemplo: la herramienta SAO en el estándar H.265 se utiliza para mejorar el efecto de llamada, pero reducirá las puntuaciones de VMAF y VMAF-NEG;

La herramienta PSY del codificador X265 puede aumentar los detalles de alta frecuencia en términos de calidad subjetiva , pero no es amigable con los indicadores objetivos;

Otro ejemplo: las tecnologías JND y ROI, en el proceso de minería de redundancia de distorsión visual , inevitablemente causarán una disminución en los indicadores objetivos activos;

El algoritmo de control de código de desarrollo propio de Alibaba Cloud asignará más tasas de código a áreas propensas a problemas subjetivos como el "efecto de bloqueo" para proteger la calidad subjetiva, pero esto también conducirá a una disminución de la calidad objetiva;

Además, varias tecnologías de generación de reparación en la mejora del preprocesamiento modificarán directamente la fuente. Estas tecnologías no son muy amigables con los indicadores objetivos activos destinados a evaluar la "diferencia de la fuente".

Además, la "optimización excesiva" para un solo indicador objetivo también puede causar una situación en la que un solo indicador objetivo es contrario a la experiencia subjetiva...

Por lo tanto, si el valor de un índice objetivo único es alto o bajo, no debería ser el "objetivo final" perseguido por la optimización de la codificación de video.

97e2def03c0df69126faa483cf1b32c5.png

Ver el horizonte en las sutilezas

¿Qué soluciones sutiles se pueden encontrar en nuestro horizonte de códecs?

Con el apoyo de los conceptos técnicos anteriores y la arquitectura de codificación inteligente, "Narrowband HD 2.0" parte del modelo visual humano y ajusta el objetivo de optimización del codificador de "mayor fidelidad" a "mejor experiencia subjetiva".

Esto se puede ver desde dos perspectivas de codificación visual y restauración de detalles.

En términos de codificación visual, "Narrowband HD 2.0" adopta la toma de decisiones de tipo de cuadro basada en contenido y escena y la asignación de tasa de bits a nivel de bloque, y la toma de decisiones de modo adopta un algoritmo subjetivo amigable .

En la parte de codificación adaptativa de contenido, considerando que el brillo, el contraste y la distorsión en el dominio del tiempo del dominio espacial del video percibido por el ojo humano son discontinuos, la información visual redundante es descartada por la tecnología de codificación adaptativa basada en la distorsión apenas perceptible (JND), y En el caso de que no haya una reducción significativa en la calidad subjetiva, se puede ahorrar mucho ancho de banda ; al mismo tiempo, la estrategia de asignación de tasa de código se ajusta a través de la tecnología de control de código ROI para mejorar aún más la claridad del área de interés para el ojo humano.

En la dimensión de la reparación de detalles, "Narrowband HD 2.0" adopta la tecnología de generación de reparación de detalles basada en Generative Adversarial Network (GAN) .Mientras repara el efecto de mosaico y las rebabas de borde causadas por la compresión de codificación, el "suplemento cerebral" genera algunos detalles de textura natural. Hace que los detalles de la textura de la imagen sean más ricos, más naturales y con más textura.

Más importante aún, para lidiar con escenas de subdivisión vertical, nuestro modelo realizará una generación de texturas más inteligente para las características de la escena .

Por ejemplo, para las escenas de conciertos, las plantillas personalizadas de Idol se crearon exclusivamente para Blockbuster TV. Con el fin de optimizar los detalles del área del retrato y restaurar el efecto de generación, el "disparo directo cara a cara" de Idol se restauró claramente y se envió al pantalla de la audiencia a través de la transmisión en vivo.

Otro ejemplo: en la escena del juego de baloncesto de la NBA, el modelo de reparación de IA fortalece la reparación y generación de texturas de pisos de canchas de baloncesto, primeros planos de jugadores, límites de canchas, letras publicitarias en el suelo, números en camisetas, redes de baloncesto y otros elementos únicos. de eventos deportivos de baloncesto, mejorando en gran medida la claridad de la imagen y la viveza visual general.

También es cierto que sólo en las sutilezas se puede ver el extremo de la tecnología.

6cc08cb205769b32104a3e490e721b03.png

Ineludible "costo, costo, costo"

El "juego de suma no cero" de costo y experiencia, ¿cómo equilibrar el códec?

Así como la "claridad" y el "ancho de banda" son los dos extremos del equilibrio que la "HD de banda estrecha" debe equilibrar, en el entorno actual de "reducción de costos y aumento de la eficiencia", el "juego de suma distinta de cero" entre "experiencia" y "costo", debe ser un tema que no se puede evitar.

Aunque el costo (complejidad computacional) y la experiencia (calidad) son una relación de "compensación", hasta cierto punto, también pueden optimizarse y mejorarse unilateralmente.

Por ejemplo, a través de la optimización del algoritmo, la curva RD del codificador se puede optimizar hacia una dirección más rentable bajo la condición de complejidad constante; al mismo tiempo, a través del diseño de un algoritmo rápido adaptativo rentable, la mejora de la calidad también se puede transformar en Además, a través de la optimización de la capa inferior y la integración total con la plataforma informática, se puede aprovechar el potencial de la codificación heterogénea para reducir aún más el costo informático manteniendo la misma calidad.

Por supuesto, en el camino de "hacer que los algoritmos de alta tasa de compresión y la IA sean verdaderamente inclusivos", Alibaba Cloud Video Cloud ha hecho más que eso.

Al igual que la codificación de video, en el campo del procesamiento de video, el aprendizaje profundo ha superado con creces a los métodos tradicionales en términos de efecto y aún está evolucionando rápidamente, sin embargo, el alto consumo de recursos informáticos por parte del aprendizaje profundo se ha convertido en el principal obstáculo para su uso generalizado. en aplicaciones prácticas razón.

El núcleo de codificación de desarrollo propio en profundidad de Alibaba Cloud Video Cloud , que incluye s264 y s265, implementa más de 100 algoritmos, admite escenarios de transmisión en vivo, bajo demanda y RTC. En comparación con el código abierto, tiene una tasa de compresión líder de más del 20 %. en todos los escenarios.

Al mismo tiempo, presentamos la toma de decisiones de codificación asistida por IA , mejoramos las capacidades de adaptación del contenido en la asignación de la tasa de bits y la toma de decisiones de modo, y minamos la redundancia visual al extremo.Bajo la misma subjetividad, la tasa de bits se puede ahorrar en un 50 %

¿Es la combinación de software y hardware la habilidad para romper el techo de la codificación?

Además de la diferencia limitada entre el nivel del algoritmo y el nivel del software, para crear una ventaja de costos, el software, los algoritmos, los sistemas operativos, el hardware e incluso los chips deben estar vinculados en todos los ámbitos.

Sobre esta base, basado en el chip Yitian 710 de desarrollo propio , Video Cloud y el equipo de Yitian invirtieron conjuntamente en la optimización de codificación de video ARM , reconstruyeron profundamente la estructura de datos de codificación de video, el marco paralelo y reajustaron la estrategia de algoritmo rápido, desde el niveles de software, ensamblaje y hardware Optimización profunda de capas cruzadas para dar forma al máximo rendimiento.

Al mismo tiempo, tenemos una cooperación profunda con Pingtouge para construir conjuntamente la competitividad de los chips de desarrollo propio con "combinación de software y hardware".

9c462cc8d29756f3579d06191d1c9a93.png

Sin imaginación no hay evolución

¿VisonPro de Apple revela el futuro de la codificación?

Mirando hacia atrás a las "contradicciones" y problemas al comienzo del artículo, frente al aumento de datos de video masivos, diversos formatos de contenido de video y la expansión acelerada del alcance de las aplicaciones de la industria, la respuesta a cómo codificar video " evoluciona" también está oculto en la rápida iteración de la industria.

¿Cómo lograr una mayor eficiencia de compresión y combinar varios escenarios de subdivisión? El códec de IA puede lograr una mayor eficiencia de compresión que los estándares de compresión tradicionales y puede tener oportunidades para implementarse en algunos escenarios verticales, por ejemplo: la industria ya cuenta con compresión de imágenes basada en aprendizaje profundo, que se implementa en la transmisión comprimida de imágenes satelitales;

En el futuro, los escenarios de consumo de datos de video ya no se limitan a la visión humana, y la codificación de video para la visión artificial también marcará el comienzo de un enorme mercado de aplicaciones. El equipo de nube de video de Alibaba Cloud ha cooperado profundamente con universidades para diseñar un "nuevo paradigma de codificación para la visión humano-computadora: un esquema de codificación de imágenes que combina semántica de alto nivel y señales de bajo nivel";

En cuanto al reciente lanzamiento del popular Apple VisionPro, como trabajador de la industria del video, estoy muy feliz de ver que el ecosistema de realidad virtual realmente puede crear un mercado bajo el liderazgo de Apple. Por lo tanto, algunos estándares de codificación inmersiva relacionados, como MIV, codificación de nube de puntos, codificación de cuadrícula dinámica y otras tecnologías, también se investigarán gradualmente...

el futuro ha llegado,

¿Qué tipo de "nueva vida " traerá la "evolución" de la arquitectura de codificación inteligente ?

Estén atentos el 28 de julio

LiveVideoStackCon2023 Estación de Shanghái

Sesión de video en la nube de Alibaba Cloud

Experto en algoritmo avanzado inteligente en la nube de Alibaba ofrece un discurso

"Evolución multidimensional: investigación y práctica de la arquitectura de codificación inteligente"

Explore la evolución en profundidad de la tecnología de codificación "inteligente"

be9fbf46c86af96fb29bdf3f086c13fa.png

8635359404c598ac0852eedc0bff70bf.png

⬆️ Escanee el código QR de arriba para la sesión de registro gratuita


Haga clic para leer el texto original e inscríbase ahora en la sesión

Supongo que te gusta

Origin blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131566263
Recomendado
Clasificación