Transmisión de video de baja latencia impulsada por el aprendizaje de refuerzo

Con la popularidad de las videoconferencias, el video en vivo y el desarrollo de los servicios AR/VR en el futuro, los servicios de transmisión de video de baja latencia se usan ampliamente, pero la calidad del video (QoE) no puede cumplir con los requisitos del usuario. Entonces, ¿puede la red neuronal de IA emergente en los últimos años brindar optimización inteligente a la transmisión de video? Hoy, la LiveVideoStack Conference Beijing Station invitó al profesor Zhou Anfu de la Universidad de Correos y Telecomunicaciones de Beijing a compartir con nosotros los resultados de investigación relevantes sobre la transmisión de video de baja latencia utilizando métodos de aprendizaje por refuerzo.

Texto / Zhou Anfu

Editar/LiveVideoStack

Hola a todos, soy Zhou Anfu de Beiyou, estoy muy contento de tener la oportunidad de compartir nuestro trabajo con ustedes. Como estoy en la academia, me gustaría invitar a colegas de la industria a dar opiniones más valiosas. El título de mi informe es: Investigación sobre la transmisión de video de baja latencia impulsada por el aprendizaje por refuerzo .

Antes de comenzar oficialmente, me gustaría mencionar brevemente que desde 1986, durante más de 40 años, el control de congestión de transmisión de video ha sido un problema clásico que enfrentan los profesionales. Con el desarrollo y la actualización de la industria emergente de IA en los últimos años, naturalmente esperamos utilizar métodos de inteligencia artificial para optimizar la transmisión de video, pero ¿cómo podemos combinarlos mejor? Todo nuestro proceso de investigación no ha sido fácil, y nos hemos encontrado con muchos problemas y dificultades. Esta vez, compartiremos principalmente estos problemas y nuestras soluciones propuestas con usted, y nos esforzaremos para que el método de aprendizaje por refuerzo realmente ayude a la transmisión de video y beneficie a la industria Las aplicaciones ayudan.

-01-

antecedentes y problemas

68ab41fd03457eef86ae93a479c53a42.png

5a09b9e364dff15db1e288de20bf6459.png

La presentación se dividirá en tres partes, comenzando con una breve introducción de antecedentes y problemas. Sabemos que con el crecimiento continuo del video en tiempo real y los servicios de video interactivo en tiempo real, los escenarios de aplicaciones como videollamadas, videoconferencias, VR y video holográfico 4K, y la operación remota de robots pueden representar más del 80 % de Internet actual. tráfico. Aunque el volumen de negocios está aumentando, la calidad del video no es satisfactoria. Tal vez todos hayan tenido problemas, como bloqueos de teléfonos de video y baja calidad de imagen. En este contexto, queríamos comprender qué tan grave es el problema de la baja QoE en las redes comerciales reales .

28701214bf3935d22a37e9b44b58589f.png

Cooperamos con Taobao Live para llevar a cabo una investigación de medición de red en vivo. La medición incluyó un total de ciudades 749 en países 57. La cantidad de sesiones y el tiempo de sesión medido llegó a millones, y se recopiló una gran cantidad de conjuntos de datos.

07d34c8f241d223dafa99a648068c15b.png

Al mismo tiempo, también hemos construido algunas plataformas experimentales y sistemas de evaluación para ayudar en el análisis; consulte los detalles más arriba.

b7cc5b732c75055934aabef67ba59ad4.png

La conclusión final del análisis es: si se usa una pérdida de paquetes del 1 % o RTT300 ms como estándar de QoE baja, entonces alrededor del 20 % de las sesiones en los datos de medición tienen problemas de QoE baja Incluso si las condiciones básicas de la red son buenas, la calidad del video sigue siendo pobre La situación es similar a El camino es ancho pero el automóvil corre lentamente, presumiblemente solo puede ser un problema con la habilidad del conductor.

4e1419ef3bf2aa230b76304010338073.png

Entonces, ¿cómo resolver este problema? La clave de la solución radica en el método de transmisión . Descubrimos que los protocolos de transmisión como TCP y UDP generalmente se diseñan manualmente según la experiencia. En las redes modernas, hay estimaciones de ancho de banda que son demasiado conservadoras, incapaces de adaptarse a cambios instantáneos en el red y falta de flexibilidad en las nuevas condiciones de la red. La razón fundamental es que los escenarios de video en tiempo real tienen requisitos cada vez más altos para el ancho de banda de la red y requisitos cada vez más bajos para la latencia. Al mismo tiempo, la Internet moderna se ha vuelto altamente heterogénea y dinámica, lo cual es difícil de predecir.

8a82e72758a1e4dc8cac6f9c9b13ae4d.png

Aquí hay una introducción detallada a la naturaleza altamente dinámica de Internet, en la actualidad, el cambio de ancho de banda de la red se puede decir que es del orden de milisegundos, y su situación es similar a la del mercado de valores. El cambio en el ancho de banda provocado por una gran cantidad de usuarios que transmiten datos es bastante difícil de predecir, por lo que es bastante difícil restringirlo con reglas fijas.

caad7b5eff915e45d9b19999d6be8e5a.png

Esperamos abordar este problema con métodos de aprendizaje por refuerzo . Creo que todos pueden haber aprendido sobre el aprendizaje por refuerzo de AlphaGo. Su esencia no se limita a reglas fijas, impulsadas por datos e indirectamente aprendidas por prueba y error.

Esta idea se puede aplicar a los servicios de transmisión de video, y la IA puede aprender a hacer frente a los cambios de la red mediante la transmisión continua de videos. Segundo, en el proceso de transmisión de video, una decisión puede afectar tanto el presente como el futuro. Por ejemplo, el cambio de resolución de video durante la transmisión afectará continuamente las condiciones de la red. Los métodos de aprendizaje por refuerzo se diferencian del aprendizaje supervisado en que, por lo general, planifican resultados a largo plazo y son adecuados para los casos anteriores.

-02-

Aprendizaje por refuerzo + vídeo de baja latencia: de la teoría a la práctica

2.1 Aprendizaje fuera de línea

Como se mencionó hace un momento, nos hemos encontrado con muchos problemas en la práctica del uso de inteligencia artificial para optimizar la transmisión de video. A continuación, presentaremos estos problemas y dificultades en detalle. Antes de eso, repasemos brevemente qué elementos del sistema de llamadas/videoconferencias determinan la calidad de la transmisión.

872649a5861ff86a81be431c7ffc220c.png

Como se puede ver en la figura anterior, una fuente de video se codifica y se divide en cuadros de video, y los cuadros de video se empaquetan y transmiten por separado. Cada paquete de datos llega al extremo receptor a través de la red y, finalmente, después de decodificarse y renderizarse, es restaurado a una imagen de video y presentado a la audiencia, frente a usted.

¿Qué enlaces determinan la calidad de la experiencia del usuario? Entiendo que hay dos puntos: el primero es la transmisión , su esencia es estimar el ancho de banda disponible del enlace y enviar el resultado al codificador y lograr un ajuste adaptativo de la tasa de bits de video a través de la cooperación con el codificador. Es concebible que si la colaboración es mejor, la reproducción de video será más fluida.

2c927b5b8862192dbf1014f9923aec9b.png

Pero, de hecho, las dos partes no están lo suficientemente coordinadas. Lo anterior es un ejemplo de transmisión. La línea negra en la figura es el ancho de banda real de la red. GCC es el algoritmo de control de congestión de transmisión de video de Google. La línea azul representa la velocidad a la que se utiliza para transmitir archivos que no son de video. Los códecs no están involucrados. en el proceso, y la línea roja representa su velocidad de transmisión de imágenes de video, el proceso involucra el uso de un codificador.

A través del análisis, se puede ver que cuando la red en los puntos M1 y M2 en la figura está congestionada, a medida que cae el ancho de banda, la tasa de transmisión de video de la línea roja cae de forma anormal y brusca. La razón es que el codificador va a la zaga del control de flujo de la capa de transporte . Cuando aumenta el ancho de banda de la red en el punto M3, en comparación con la línea azul, la velocidad de transmisión de video de la línea roja aumenta demasiado lentamente. La razón es que a medida que disminuye la velocidad de transmisión de video, su velocidad de cuadros también disminuye y se procesan menos paquetes de datos. La interferencia con la estimación del ancho de banda de GCC evita que la tasa de transferencia aumente rápidamente.

8192b708ba1e0c1eca0cba6ed7b9cf6a.png

Diseñamos un modelo de aprendizaje por refuerzo para fortalecer la coordinación entre ambos. Este modelo cancela el papel principal de la capa de transmisión, y la red neuronal es responsable de recopilar la información de la capa de transmisión y la capa de codificación, y calcular la tasa de código cooperativa óptima del codificador y la capa de transmisión.

528eab4efeb53a81decac8bba2f126e.png

b3f6dc90f5d1c5796376458209a41837.png

Lo anterior es el método de modelado y la estructura del modelo de la red neuronal. Si está interesado, puede consultar nuestro documento.

2b4bc0fed9f5306abff84ad98038fe6b.png

Vale la pena mencionar que hemos diseñado un nuevo método de entrenamiento para la red neuronal para la transmisión de video.En primer lugar, en el diseño de la función de penalización, prestamos atención al castigo adicional de congelamiento de video, para evitar congelamientos de video causados sobreestimando el ancho de banda del video. En segundo lugar, tiende a castigar los saltos de tasa de bits para garantizar una experiencia de visualización fluida para los usuarios. El tercero es prestar atención al ajuste de las etiquetas de expertos en el proceso de aprendizaje supervisado para que sean ligeramente inferiores al ancho de banda en tiempo real de la red para garantizar resultados de optimización ideales.

fe99317371b4b0651e1105424c6dd0d2.png

Los anteriores son los resultados de la prueba de rendimiento del método de red neuronal (Concerto). La línea verde en la figura de la izquierda es el ancho de banda real y la línea azul representa la velocidad a la que el método de red neuronal transmite video. Se puede ver que las líneas azul y verde encajan estrechamente, y Concerto puede predecir mejor el ancho de banda disponible y obtener una ganancia de QoE del 23 %. La ganancia de rendimiento que aporta es del 37 % y el retraso de fotogramas es casi el mismo que el de otros métodos de transmisión.

270e1d3793d3530f39f9b8862218e55e.png

Estábamos muy entusiasmados con los resultados de nuestra investigación y lo probamos. Sin embargo, aunque los resultados de la simulación de Concerto después del entrenamiento en el emulador son mejores, una vez que el entorno de prueba se reemplaza por un banco de pruebas real, el efecto de optimización se reduce significativamente. La inconsistencia del rendimiento algorítmico entre el simulador y el entorno real es el clásico problema de la " brecha entre simulación y realidad " al que se enfrentan los métodos de aprendizaje por refuerzo.

d251640ebc87236261ec4876dae5f3d6.png

De hecho, en el proceso de entrenamiento del aprendizaje por refuerzo, debido al rápido cambio del estado real del ancho de banda de la red, es difícil para el simulador simular la dinámica de la red en una "verdad completa", y el entorno de simulación es oportuno. Con el continuo desarrollo y actualización del entorno de red, el modelo en el simulador La experiencia aprendida en la escuela secundaria puede quedar "obsoleta" frente al entorno real.

2.2 De fuera de línea a en línea

453cdb28ec3d25ca693db5eb5ec893c2.png

Por lo tanto, en comparación con el proceso original de recopilar primero los rastros de los usuarios, aprender en el emulador fuera de línea y luego implementar, pensamos en dejar que el algoritmo de IA aprenda directamente en la red real y se enfrente al entorno de red real.

Esta es también la segunda parte de compartir contenido de fuera de línea a en línea. La idea es simple e intuitiva, pero enfrenta muchos desafíos en el proceso de implementación.

3643f9949588082b4f7bda5222e1508f.png

La primera es cómo aprender de las sesiones masivas de video concurrentes en la red real. El aprendizaje fuera de línea tradicional necesita recopilar una gran cantidad de rastros, como la pérdida de paquetes y el rendimiento de las sesiones de video, y agregarlos para el entrenamiento en el emulador. Sin embargo, el aprendizaje en línea no puede recopilar rastros por adelantado y una gran cantidad de sesiones de video se realizan simultáneamente. Por lo tanto, cómo transformar el aprendizaje fuera de línea serializado en aprendizaje en línea paralelo es un problema urgente que debe resolverse.

82f6f4fbdafee73a6cc1da68fe4653d3.png

Para solucionar este problema se propone una arquitectura de aprendizaje online en dos etapas, en la primera etapa se entrena un modelo personal para cada usuario, en la segunda etapa se agregan modelos individuales considerando diferentes pesos, y finalmente un modelo que resume todas las experiencias es obtenido. El modelo agregado se entrega a cada usuario para su iteración y, finalmente, se forma una versión estable.

18eb62a2afa3e407c138d52dd3d8378b.png

La ventaja del método anterior es que a través del aprendizaje de agregación ponderada, se puede lograr una optimización personalizada para miles de personas.Para diferentes entornos, como usuarios de 5G o WIFI doméstico, el método de aumentar el peso de modelos de entorno específicos se puede utilizar para una optimización personalizada. .

adf23c9e2743339592c3608eec0c3cbd.png

El segundo desafío es que, a diferencia del entorno del emulador, donde la red neuronal puede controlar completamente la transmisión de la capa de transporte, la transmisión de datos del codificador en el sistema real cambia según la imagen real y las condiciones de la red, y no puede ejecutar fielmente la transmisión neuronal. estrategia de red, que trae efectos adversos a la formación en línea.

27ed029b58542a389bb5d3e3f48e6e19.png

En respuesta a este problema, consideramos ingresar la desviación de la toma de decisiones de la red neuronal del codificador en la red neuronal nuevamente en el entorno real, para que la red neuronal pueda comprender y aprender a tolerar la desviación de la toma de decisiones.

a35c2419ac84f47c6f4dd88b096dc485.png

El nuevo método de entrenamiento se formó en consecuencia, y la comparación con el esquema original se muestra en la figura anterior, donde el punto verde es el esquema fuera de línea y el punto rojo es el esquema en línea. Se puede ver que el rendimiento de optimización de video de la nueva solución ha mejorado mucho.

d2860aae325751a9db7b728f83e65523.png

Los anteriores son los resultados de la prueba de rendimiento de transmisión de video en la plataforma de transmisión en vivo de Taobao utilizando la red neuronal entrenada. Se puede ver que la tasa de pérdida de paquetes, el RTT y la tasa de congelación han disminuido.

2.3 De no confiable a confiable

9c237f969e6785ab756744c34da4a76c.png

A continuación, mire la última pregunta. Dado que el método de aprendizaje por refuerzo esencialmente requiere prueba y error, no siempre es confiable y "dará la vuelta" en algunos escenarios. Cuando se usa para optimizar la transmisión de video, también parece que el efecto de optimización en algunas escenas de sesiones de video no es bueno.

Después del análisis, se encuentra que en este tipo de escenario, aunque el método basado en el aprendizaje por refuerzo tiene beneficios obvios en la capa de transporte, este beneficio no se puede convertir en beneficios de QoE de video en la capa de aplicación, y retraso de cuadro, fluctuación de cuadro y En su lugar, aparecerá la tasa de congelación.

87867f2f9ba34729e8254451fb413190.png

Analizamos la causa del problema y descubrimos que el método de aprendizaje por refuerzo ha provocado un efecto de cola larga, que puede provocar que se envíe una pequeña cantidad de paquetes de datos con un gran retraso durante la transmisión. Sin embargo, el gran retraso de esta pequeña cantidad de paquetes da como resultado una larga espera para toda la trama.

f303671bc9e0d1eaa5516483947eba27.png

La raíz de esto es que el modelo de aprendizaje por refuerzo se entrena a través de un método de "ensayo y error". El análisis específico se muestra en la figura anterior, donde la línea negra representa el ancho de banda de la red y la línea amarilla representa la velocidad de transmisión del algoritmo GCC, se puede ver que está estable por debajo del ancho de banda disponible. La línea verde representa la tasa de transmisión del modelo de aprendizaje por refuerzo. Se puede ver que a veces su tasa excederá o caerá por debajo del ancho de banda disponible. Esto es en realidad un algoritmo de "prueba y error". Este tipo de sobreimpulso causó una caída grave. en vídeo QoE.

a2394001c1f1600e8c74f6d995e4c5c3.png

Queremos que los modelos de aprendizaje por refuerzo sean más confiables y eviten los efectos de cola larga tanto como sea posible. Por lo tanto, considerando la capacidad determinista del esquema de reglas, usamos esta característica para establecer un umbral mínimo de la tasa de transmisión para el método de aprendizaje por refuerzo, ingresando la información de la red en los dos algoritmos al mismo tiempo y fusionando los dos para formar una nueva red neuronal toma de decisiones.

99d6d0419f72e11ed8dd26a7b87755d8.png

Los predecesores han hecho un trabajo similar. Se llama fusión de nivel de decisión. La decisión final se toma recopilando los resultados de predicción de las reglas y el algoritmo de aprendizaje por refuerzo respectivamente. Sin embargo, todo el proceso parece ser de memoria, y los dos solo pueden considerarse como una combinación inorgánica. Con el fin de permitir la integración profunda de los dos, adoptamos una idea de fusión a nivel de características, al aplicar una caja negra al algoritmo de la regla GCC en una red neuronal y combinar las neuronas de los dos para el entrenamiento.

dc1e321b6773d003f8d3122465492562.png

El resultado de la prueba del modelo fusionado se muestra en la figura anterior. La línea roja en la figura representa el modelo de fusión Loki, y la línea púrpura representa el modelo OnRL de aprendizaje por refuerzo puro. Se puede ver que el efecto de cola larga ha sido completamente eliminado, y el modelo de Loki ha reducido la tasa de congelación del percentil 95 en un 26,3 % ~44,24 %, que es el beneficio de la fusión a nivel de características. los papeles anteriores.

2172da824173c76137df259311cfb35f.png

Aquí se muestra una muestra del efecto de fusión a nivel de función. Para obtener una introducción detallada, también puede consultar nuestros resultados en papel. El primer escenario a la izquierda es el aumento de ancho de banda, en este escenario, el modelo de aprendizaje por refuerzo debe jugar un papel principal, ya que puede hacer un uso completo del ancho de banda efectivo, se puede ver que el modelo RL tiene una atención más fuerte. En el escenario opuesto donde se reduce el ancho de banda, el algoritmo de la regla debe ser dominante para evitar decisiones radicales que afecten la calidad de la transmisión, como es la situación real que se muestra en la figura de la derecha.

-03-

verificación de red en vivo

2bec42904dc70a2738ac9b4bbd3ee00b.png

Finalmente, una breve introducción a la situación actual de verificación de la red. Primero, la imagen de arriba muestra la situación experimental. Cambiamos el GCC a un controlador RTC impulsado por aprendizaje de refuerzo, y la escena del efecto está a la derecha.

10b32bd7f13775300af8dda1c1cc38e8.png

El modelo Loki se ha implementado a gran escala en más de 100 millones de escenarios de video. Se puede ver que reduce la tasa de congelación entre un 13,98 % y un 27,27 % y mejora la calidad del video entre un 1 % y un 5 %.

93937e0a46f85af364cc33107f2960ea.png

El servicio de optimización ha ganado muchos usuarios y también ha ganado premios relevantes de Alibaba y el Instituto Chino de Electrónica.

62986dc1fbef97b0e65e23c11873c27c.png

Por último, mirar hacia el futuro. Además de la mejora de la calidad del video, los profesionales también pueden estar más preocupados por el control de costos. La gran tendencia actual de desarrollo de Internet es evolucionar hacia la Web 3.0 , ya que es distribuida, los usuarios también son dueños de sus propios datos. Estamos pensando si los usuarios también pueden participar en la transmisión y distribución de videos en vivo.

Esto es consistente con la idea de p2p tradicional, pero p2p no consideró la demora y los estrictos requisitos de calidad de la transmisión de video cuando se diseñó. Cómo usar el método p2p para hacer una buena transmisión de video es nuestra principal dirección de investigación actual.

728be9959be10cfba0d877f02a3de73b.png

La segunda dirección es cómo hacer un buen trabajo de control remoto. Sabemos que no importa qué tan optimizado esté, siempre habrá retrasos en la red. Cómo eliminar los efectos adversos de los retrasos en la capa superior y realmente darse cuenta real- El control remoto del tiempo también es un problema que estamos explorando.

bc053a17a0d64b5a394d59f37ed250f3.png

El contenido compartido ahora se puede consultar en los documentos anteriores, y todos pueden comunicarse sobre temas relacionados. Este es el final de mi intercambio de hoy, ¡gracias a todos!


befd33684e7fe88e232e004efed2c692.png

Escanee el código QR en la imagen o haga clic en " Leer el texto original " 

Vea más temas interesantes de LiveVideoStackCon 2023 Shanghai Station

Supongo que te gusta

Origin blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131098489
Recomendado
Clasificación