Práctica de aterrizaje con tecnología de códec de imagen AI

Desde que AI Codec se propuso por primera vez en 2016, muchas universidades nacionales y extranjeras, institutos de investigación empresarial y otras instituciones han llevado a cabo una amplia investigación al respecto. En los últimos 6 años, el rendimiento de compresión de la solución SOTA de AI Codec ha superado a H.266 (el último estándar de códec tradicional), lo que demuestra un gran potencial técnico. Sin embargo, limitado por la complejidad computacional, no estándar y otras razones, solo hay un puñado de casos de AI Codec en términos de implementación de aplicaciones. LiveVideoStackCon2022 Beijing Station invitó a Tian Kang de Shuangshen Technology a compartir con ustedes la experiencia de explorar la implementación de la tecnología AI Image Codec basada en Shuangshen Technology.

Oración / Tayasu

Editar/LiveVideoStack

Hola a todos, el tema de este intercambio es: práctica de aterrizaje de la tecnología AI Image Codec , principalmente se dividirá en tres partes para presentar los logros técnicos que hemos logrado en la terminal móvil. La primera parte presenta la tendencia de desarrollo de la industria de imágenes y videos y nuestra comprensión; la segunda parte resume brevemente el desarrollo de AI Codec; la tercera parte se enfoca en la implementación de terminales móviles de AI Image Codec.

-01-

Tendencia de desarrollo de la industria de imágenes y videos

c8fa5c1fc111f6ab619bbbb4dd740b89.png

En primer lugar, introduzca la tendencia de desarrollo de la industria de la imagen y el video. "Estamos en la era de la explosión de datos de imágenes" puede haberse convertido en un consenso de la industria. De acuerdo con los datos de la encuesta que obtuvimos de las instituciones relevantes, se espera que la cantidad total de datos de imágenes y videos globales supere los 140ZB para 2025, y la tasa de crecimiento anual compuesto de datos alcanzará el 27 %, que es un orden de magnitud aterrador. Con la popularidad de tecnologías como ChatGPT en los últimos años, se cree que la tasa de crecimiento aumentará aún más.

Un análisis simple de las razones del rápido crecimiento del volumen de datos: en primer lugar, en escenarios de aplicación como atención médica y seguridad, los datos de imágenes deben almacenarse durante mucho tiempo o de forma permanente de acuerdo con los requisitos de la política nacional, lo que resulta en una cantidad cada vez mayor. de acumulación de datos. La segunda es que a medida que aumenta la demanda del público de video de alta calidad, como imágenes de alta calidad y altas velocidades de cuadro, aumenta la densidad de datos. El tercero es que con la expansión de los datos de video en varios escenarios de aplicación como Internet, seguridad, drones y juegos en la nube (a diferencia de los juegos tradicionales, el proceso va acompañado de una gran cantidad de transmisión de video), etc., la enorme se ha producido un aumento en el volumen de datos.

El uso eficiente de estos datos debe ir acompañado del desarrollo y optimización de tecnologías subyacentes como compresión, transmisión y almacenamiento. Creemos que la mejora de la tecnología de compresión es la clave. Hay tres razones principales: Primero, hay cuellos de botella en la mejora del ancho de banda y el almacenamiento. En segundo lugar, para escenarios de aplicaciones especiales, como inspecciones de campo, no es aplicable aumentar el ancho de banda. La tercera es que la mejora del almacenamiento y el ancho de banda no ha resuelto fundamentalmente el problema de la gran cantidad de datos transmitidos.

a9fedf1859e19639d9378979c3cb2f5d.png

La imagen de arriba es el diagrama de enlace de la aplicación de IA visual que diseñamos. Primero, el contenido de video se produce a través de la cámara o la computadora, y luego se repara, edita o audita con IA, y los datos se presentan al usuario para que los vea. El proceso puede ir acompañado de acciones de IA Las interacciones o superpuntuaciones se identifican y luego se pasan a dispositivos de almacenamiento para el almacenamiento de datos. Encuentre los datos requeridos a través de texto, imagen, multimodal y otros métodos de recuperación antes de la aplicación y, finalmente, aplíquele análisis estructurado y privacidad/computación distribuida.

Se puede ver que todo el proceso está conectado por códec. Al mismo tiempo, puede haber aplicaciones de IA en cada enlace, que también es la tendencia de desarrollo posterior del procesamiento de datos.

En comparación con los códecs tradicionales, los códecs de extremo a extremo de IA son naturalmente más adaptables a esta tendencia. Desde la perspectiva del algoritmo, el códec AI utiliza las características de la imagen extraídas para las aplicaciones posteriores directamente, lo que ahorra los cálculos de extracción de características posteriores. Desde la perspectiva del hardware, la gran cantidad de aplicaciones de IA hace que el hardware actual esté más o menos equipado con potencia informática de IA, lo que también crea las condiciones para la aplicación del códec de IA.

-02-

Desarrollo de códecs de IA

0b8210ed0990b0a1d4da31dd46d4c555.png

A continuación, presentaremos el desarrollo de AI Codec. La imagen de arriba muestra la comparación del proceso de desarrollo de los códecs tradicionales y de IA. Se puede ver que el rendimiento de compresión de AI Codec supera al tradicional H.264 y H.265 y solo usa 1/6 del tiempo de desarrollo del método tradicional. Desde H.261 en 1988 hasta H.266 en 2020, en comparación con la frecuencia de iteración promedio de los códecs tradicionales una vez cada diez años, los códecs de IA han logrado un rápido desarrollo.Desde la propuesta del marco de codificación de extremo a extremo en 2016 hasta la seguimiento La aplicación de GAN, el estándar de 1857, e incluso el surgimiento de la dirección de desarrollo posterior de la codificación AIGC, ha surgido continuamente varios métodos nuevos que se pueden aplicar en un corto período de tiempo.

97dd6263c9ec838b7f87d9cadda5feec.png

Por otro lado, el desarrollo de la industria de chips de IA también proporciona un terreno para los códecs de IA. En los últimos años, el uso a gran escala de GPT-4 y AIGC ha promovido el rápido desarrollo de la industria de chips de IA en su conjunto.Con la industria favorable, Qualcomm y otras compañías de chips de vanguardia también están comenzando gradualmente el desarrollo e investigación de chips de IA. En segundo lugar, las tecnologías futuras, como el almacenamiento y la computación integrados, los chips similares al cerebro y la computación cuántica, han brindado mejores perspectivas para el desarrollo de la potencia informática de los chips.

-03-

Práctica de aterrizaje de terminal móvil AI Image Codec

1a13bafc03c22508e25d2e1ba4c5f5c6.png

A continuación, presentaremos nuestra implementación de AI Image Codec en el terminal móvil Tomando el escenario de distribución de imágenes CDN en el terminal móvil de Internet como escenario de aplicación, primero explicaremos las razones para adoptar este escenario.

Primero, una gran cantidad de redes sociales, comunidades de contenido y aplicaciones de comercio electrónico están involucradas en este escenario, y el centro distribuye imágenes de una manera de uno a muchos.Incluso una plataforma de video pequeña como Douyin involucrará una gran cantidad de imágenes. contenido. Al mismo tiempo, dado que alrededor del 80% de los costos operativos de CDN son tarifas de ancho de banda de tráfico, tiene una gran demanda de compresión de imágenes.La optimización de la tecnología de compresión de imágenes puede ahorrar costos de manera efectiva. El tercero es que este escenario es un escenario de circuito cerrado, que puede resolver el problema actual no estándar de AI Codec. Finalmente, el poder de cómputo de IA del terminal móvil es más fuerte que el de otros dispositivos IoT, que pueden lograr mejores efectos de codificación y decodificación.

33e3f6b0637e62cf125f858d5a86645f.png

Lo anterior es nuestro marco de modelo de códec de imagen AI de desarrollo propio, que se llama ANF. A diferencia de los códecs tradicionales que realizan la compresión de datos a través del procesamiento de predicción bloque por bloque, los códecs ANF extraen patrones de píxeles de alto nivel a través de redes neuronales como base para la cuantificación de datos y la estimación de probabilidad del modelo de entropía auxiliar después de recibir imágenes. Los datos finalmente se transmiten al extremo de transmisión para la decodificación de entropía y la reconstrucción de píxeles, presentando imágenes a los usuarios.

Establecimos dos restricciones para el entrenamiento de IA a lo largo del proceso. La primera es R-Loss, que representa la cantidad de información almacenada en el flujo de bits y super-priori; la segunda es D-Loss, que se usa para medir la diferencia entre la entrada y la salida. imágenes de salida Si la calidad del intervalo es deficiente, los dos indicadores anteriores deben mantenerse lo más pequeños posible.

También propusimos algunas estrategias de optimización para este modelo, como usar la estrategia Neighbor-patch-attention en la etapa de extracción de características para referirnos a la información circundante y extraer características más profundas. En segundo lugar, en la etapa de estimación de probabilidad del modelo de entropía: se adopta la estrategia Space Shuffle para mejorar la precisión de la estimación de probabilidad. El tercero es expandir el campo receptivo local al campo receptivo global para extraer información auxiliar más precisa en la etapa súper previa.

La imagen de la derecha muestra los resultados de la prueba, en la que la línea roja representa los datos del modelo ANF. Se puede ver que, en comparación con los codificadores tradicionales como VVC, los resultados de la prueba son aproximadamente 0,5 ~ 0,7 dB más altos.

5585940a9ea864a9a55ec477d37e2be5.png

Dado que la arquitectura del modelo ANF es relativamente compleja, para aplicarlo mejor en el terminal móvil, hemos realizado un procesamiento ligero sobre él y hemos trabajado mucho en términos de cuantificación y aceleración del despliegue. Intente obtener beneficios de aceleración mientras minimiza la pérdida de calidad de imagen.

61aa58da58575ee9d5accaed85fc83df.png

Lo anterior es el resultado de la comparación del modelo ligero ANF y otros códecs mediante la prueba de índice LPIPS, que se utiliza para medir la brecha entre ANF y otros códecs. Cuanto menor sea el índice, mejor será la calidad subjetiva de la imagen comprimida y la original. imagen cerca A través de pruebas en varios escenarios, se puede ver que la calidad de imagen de la compresión ANF es significativamente mejor que la de otros códecs.

9fe1292fc8c9672e69f4c6b1829280fd.png

Basándonos en los buenos resultados de los indicadores objetivos, organizamos una evaluación subjetiva de imágenes comprimidas y seleccionamos docenas de escenarios diferentes y alrededor de 20 000 imágenes que cubren diferentes resoluciones como conjuntos de datos para la prueba. Usando la imagen comprimida de avif como punto de referencia para la comparación, la imagen original se comprime con códecs ANF y avif según tres proporciones diferentes, y la imagen comprimida se corta desde la misma posición en un bloque de aproximadamente 100*100 de tamaño, que corresponde a la imagen original Comparar la calidad de la imagen comprimida en pequeños bloques y finalmente reclutar voluntarios para la evaluación.

La siguiente tabla muestra los resultados de la evaluación, se puede ver que bajo el mismo volumen, la proporción de elección subjetiva de ANF (49,4%) es significativamente mayor que la de AVIF (18,6%), lo que indica que la calidad subjetiva de ANF es obviamente mejor que el de AVIF; cuando la relación de volumen es 1:1.4, el resultado es el mismo que Cuando la relación es 1:1, es el mismo; cuando la relación de volumen es 1:2, el número de veces para seleccionar ANF y AVIF es lo mismo, y hay una gran proporción de "no seleccionar", lo que indica que la calidad de imagen subjetiva de los dos es equivalente.

9526279d8f9a3737ae96607ec7f4a2e2.png

Las anteriores son las representaciones de prueba de los dos codificadores con la misma relación de volumen. Se puede ver que la calidad de la imagen comprimida ANF es más cercana a la imagen original.

dd3444fba4278b8cde34839d7c9dcb91.png

Los anteriores son los resultados de las pruebas de los dos codificadores cuando la relación de volumen es 1:1,5. Se puede ver que los detalles de la imagen de ANF siguen siendo buenos.

ca112c5e9f99e47eeba8d5077f81e47b.png

A continuación, presentaremos la velocidad de decodificación de ANF. Probamos la velocidad de decodificación en la plataforma Snapdragon 8gen1 y usamos el SDK autoproclamado para probar el tiempo requerido desde que se carga la imagen hasta que finalmente se muestra en el terminal móvil. Se puede ver que con una resolución de 1080P, el retraso promedio de ANF puede alcanzar los 29,4 milisegundos, lo que no es percibido por el ojo humano y puede cumplir con los requisitos de la aplicación.

e6bb2c681b511468f6849f559283b4f7.png

Lo anterior es el resultado de la comparación del rendimiento de codificación.Bajo las mismas condiciones de hardware, en comparación con los codificadores tradicionales, ANF puede obtener una aceleración de codificación de 10 a 30 veces.

c56d2ecc6d8410c500302c001906d3d8.png

Los anteriores son los resultados de la prueba del impacto de la compresión en el reconocimiento y la detección secundarios, y los dos indicadores de precisión y recuperación se seleccionan para la medición. Se puede ver que, con una relación de compresión baja, la precisión de detección de la imagen comprimida ANF es ligeramente superior a la de avif, y los dos indicadores son equivalentes a la imagen original; con una relación de compresión alta, la precisión de detección de ANF la imagen comprimida es significativamente mayor que la de avif, y la brecha con la imagen original Manténgala en el rango de 2-5%.

19b4b68914bad9784fcfd6b5c48cfa04.png

A continuación, resumiremos: En primer lugar, en la era actual de explosión de imágenes y videos, creemos que la mejora de la tecnología de códecs es inminente e imperativa. La segunda es que la tendencia del procesamiento de imágenes por IA es obvia, y el método de codificación basado en IA se puede coordinar mejor desde los niveles de algoritmo y hardware. El tercero es que la velocidad de desarrollo de AI Codec es muy rápida y la perspectiva de desarrollo futuro es brillante; al mismo tiempo, el desarrollo de AI Codec también se ajusta a la tendencia de desarrollo de chips AI. Al final, nuestra optimización subjetiva basada en AI Codec puede superar a AVIF en más del 30 %. es factible de implementar en escenarios de imagen CDN. Este es el final de mi compartir, gracias a todos!


0e0023e38c7d6e3464e5cd2a89d1929e.png

Escanee el código QR en la imagen o haga clic en " Leer el texto original " 

Vea más temas interesantes de LiveVideoStackCon 2023 Shanghai Station

Supongo que te gusta

Origin blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131297655
Recomendado
Clasificación