Introducción a la tecnología de optimización de distorsión de velocidad HEVC

fondo

  1. Para transmitir y almacenar un video con una gran cantidad de datos en un canal limitado, un algoritmo de codificación con una alta tasa de compresión a menudo provoca una diferencia entre el video reconstruido codificado y el video original, es decir, el video reconstruido está distorsionado. y este tipo de compresión se llama compresión con pérdida .
  2. Para un algoritmo de compresión con pérdidas, su rendimiento debe medirse de acuerdo con la tasa de bits de la salida codificada y el grado de distorsión causado por la codificación; la tasa de bits de codificación y el grado de distorsión están mutuamente restringidos y son contradictorios, como la reducción de la la tasa de bits a menudo aumenta el grado de distorsión del video; por el contrario, para obtener una mejor calidad de video, se aumentará la tasa de bits de codificación del video.
  3. El propósito principal de la codificación de video es reducir la tasa de bits de codificación tanto como sea posible bajo la condición de garantizar una cierta calidad de video, o reducir la distorsión de codificación tanto como sea posible bajo la condición de una cierta limitación de tasa de bits de codificación.
  4. Bajo un marco de codificación fijo, para hacer frente a diferentes contenidos de video, a menudo existen múltiples métodos de codificación candidatos. Una de las tareas principales del codificador es seleccionar los parámetros de codificación óptimos con una determinada estrategia para lograr el rendimiento de codificación óptimo. on El método de optimización de parámetros de codificación de la teoría de distorsión de velocidad se denomina optimización de distorsión de velocidad, y la tecnología de optimización de distorsión de velocidad es el medio principal para garantizar la eficiencia de codificación del codificador .

Tecnología de optimización de distorsión de velocidad

  1. Información mutua
    ○ El mensaje enviado por la fuente se denomina mensaje de entrada del canal, y el mensaje recibido por el sumidero se denomina mensaje de salida del canal.Debido al ruido del canal, el mensaje de entrada del canal y el mensaje de salida del canal no son necesariamente los mismos; ○ Para dos eventos aleatorios discretos
    inserte la descripción de la imagen aquí
    X, Y, la cantidad de información sobre el evento xi dada por la ocurrencia del evento yj se define como información mutua I(xi,yj), es decir, la información mutua se define como el logaritmo de la razón de probabilidad posterior a probabilidad previa .
    ○ La cantidad de información mutua es una medida para eliminar la incertidumbre, es decir, la cantidad de información mutua es igual a la incertidumbre previa menos la incertidumbre existente. ○ Como un todo, representa la cantidad de información dada por una variable aleatoria Y sobre otra variable aleatoria X, y el promedio estadístico de la cantidad de información mutua en el espacio de probabilidad conjunta de X e Y es la información mutua promedio
    entre variables aleatorias X e Y ascienden a expresar.
    inserte la descripción de la imagen aquí

  2. Distorsión
    ○ Cuanto mayor sea la distorsión permitida, menor será la velocidad de transmisión de la información, y cuanto menor sea la distorsión permitida, mayor será la velocidad de transmisión de la información; por lo tanto, la velocidad de transmisión de la información está relacionada con la distorsión causada por el código fuente y la distorsión del el mensaje recibido por el sumidero solo es Causado por la codificación de la fuente;
    ○ Para cada par (xi, yj), especifique una función no negativa d(xi, yj) >=0, y llame a d(xi, yj) el grado de distorsión o función de distorsión del símbolo retrasado, que se utiliza para indicar el error o la distorsión causados ​​por la fuente de la señal que envía un símbolo xi y reproduce yj en el extremo receptor; ○ Las funciones de distorsión comunes son la
    distorsión media, la distorsión absoluta y la distorsión relativa;

  3. Función de distorsión de tasa
    ○ Suponga que la tasa de información emitida por la fuente es R, y se transmite en un canal con una capacidad de canal de C. Si R>C, es necesario comprimir la fuente para que la tasa de información emitida por la fuente después de la compresión es R*Capacidad de canal de luz C, este proceso de compresión inevitablemente introducirá distorsión;
    ○ Para la compresión, siempre se espera que la tasa de transmisión de información R que debe transmitirse desde la fuente al receptor sea lo más pequeña posible bajo la condición de satisfacer una cierta distorsión; desde la perspectiva del receptor, es Para satisfacer el criterio de fidelidad, encontrar la cantidad promedio mínima de información necesaria para reproducir el mensaje fuente; ○ Bajo la condición de satisfacer el criterio de fidelidad, el
    mínimo la cantidad promedio de información que la fuente debe transmitir es la función de distorsión de la tasa de información, denominada función de distorsión de la tasa; ○
    La función de distorsión de la tasa R(D) es la información mutua promedio mínima que debe obtenerse para reproducir el mensaje fuente dentro de la distorsión que el usuario puede tolerar bajo el supuesto de que se proporciona la fuente; ○ La función de tasa de distorsión
    refleja El grado en que la fuente de información puede comprimirse solo refleja las características de la fuente de información, y diferentes fuentes de información tienen información diferente funciones de distorsión de la tasa;
    ○ La función de distorsión de la tasa tiene un significado guía para la codificación de la fuente de información, pero es difícil calcular R(D) para la fuente de información real, porque la distribución de probabilidad del símbolo fuente es difícil de saber, incluso si se sabe, es difícil, porque es un problema de solución de mínimo condicional;
    inserte la descripción de la imagen aquí

  4. Teorema de codificación de la fuente de distorsión de velocidad
    ○ El teorema de codificación de la fuente de distorsión de velocidad es un teorema límite sobre la relación entre la velocidad de información y la distorsión, también conocido como tercer teorema de Shannon, que es el teorema de codificación de fuente discreta bajo el criterio de fidelidad; ○ Teorema de codificación de fuente
    de fidelidad bajo el principio : para cualquier grado de distorsión D>=0, siempre que la longitud del código l sea lo suficientemente larga, siempre se puede encontrar un código C, de modo que la velocidad de transmisión de información de cada símbolo fuente después de la codificación sea R^=R( D) +e;
    inserte la descripción de la imagen aquí

El teorema inverso de la codificación de la fuente según el criterio de fidelidad : si la tasa promedio de transmisión de información R^ de cada símbolo fuente después de la codificación es menor que la función de distorsión de la tasa de información R(D), el mensaje fuente no puede reproducirse según el criterio de fidelidad ;

Optimización de tasa de distorsión en la codificación de video

  1. Para la codificación de video, generalmente se adopta un marco de codificación unificado, como un marco de codificación híbrido basado en bloques, y la optimización de distorsión de velocidad se refiere a seleccionar los parámetros de codificación óptimos de una variedad limitada de parámetros de codificación candidatos;

  2. Medición de distorsión de video
    La medición de distorsión objetiva de video debe ser consistente con la distorsión perceptiva del sistema visual humano
    ■ SSE, MSE, SAD, PSNR se usan a menudo en aplicaciones prácticas;

  3. Curva de tasa de distorsión de video
    La relación entre la tasa de bits y la distorsión se puede describir mediante una suave curva monótona convexa hacia abajo, llamada curva de tasa de distorsión; el
    propósito de la optimización de tasa de distorsión es encontrar un conjunto de parámetros de codificación para que el punto operable correspondiente es la Envolvente más cercana posible, que consiste en determinar el punto de operación que puede optimizar el rendimiento del sistema entre un conjunto de posibles puntos de operación;
    inserte la descripción de la imagen aquí

  4. Optimización de distorsión de velocidad de codificación de video
    Diferentes parámetros de codificación pueden obtener diferentes rendimientos de distorsión de velocidad. El esquema de codificación óptimo es usar el valor del parámetro que puede optimizar el rendimiento del sistema en todos los parámetros de codificación definidos por el sistema de codificación. La velocidad en el sistema de codificación de video La optimización de distorsión consiste en seleccionar los parámetros de codificación óptimos basados ​​en la teoría de optimización de distorsión de velocidad;
    ■ Para problemas de optimización con restricciones, los métodos de solución generalmente incluyen el método de programación dinámica y el método de optimización de Lagrangian, entre los cuales el método de optimización de Lagrangian es la herramienta de optimización más común y poderosa ■
    Los problemas restringidos pueden transformarse en problemas no restringidos mediante la introducción de factores de Lagrange;
    inserte la descripción de la imagen aquí

Método de optimización de distorsión de velocidad en h265

  1. La tecnología de optimización de distorsión de velocidad no pertenece a la categoría de estandarización de codificación de video, y el codificador puede usar diferentes métodos de optimización para seleccionar parámetros de codificación;
  2. Optimización de distorsión de velocidad del grupo de imágenes de video
    ○ Para un grupo de imágenes dado, la optimización de distorsión de velocidad del estreñimiento de video es obtener un conjunto óptimo de parámetros de codificación por debajo del límite del número de bits de codificación (número objetivo de bits) del grupo de imágenes
    , y use los parámetros ○ La optimización de la distorsión de la velocidad del grupo de imágenes se puede lograr determinando de forma independiente los parámetros de codificación óptimos de cada imagen a su vez, y cada imagen refleja su dependencia del rendimiento de la distorsión de la velocidad de la imagen posterior a través del valor de la relación wi;
  3. Optimización de distorsión de velocidad a nivel de segmento
    ○ La relación de predicción del dominio espacial es compleja y cambiante, y la relación entre el rendimiento de distorsión de velocidad entre CTU es más difícil de describir; la clave para la optimización de distorsión de velocidad a nivel de segmento es aclarar la relación entre rendimiento de distorsión de velocidad entre CTU;
  4. Optimización de distorsión de tasa de capa CTU
    ○ CTU es la unidad de codificación básica de h265. El proceso de optimización de los parámetros de codificación CTU se puede dividir en: La capa CTU selecciona principalmente diferentes modos de partición CU, la capa CU selecciona principalmente diferentes modos PU y modos TU, capa PU selecciona principalmente Seleccione diferentes modos de predicción; ○ El propósito
    de la distorsión de velocidad en la capa CTU es determinar el modo de partición CU ​​óptimo, también conocido como selección de modo CU; ○ El problema de optimización de distorsión de velocidad de la selección del modo CU en la CTU la capa se puede describir como: en el número total de bits Cuando R está limitado, seleccione un modo de partición CU ​​para minimizar la distorsión total D de una CTU;
  5. Optimización de distorsión de velocidad a nivel de CU ○ El propósito
    de la optimización de distorsión de velocidad a nivel de CU es determinar el modo PU y el modo TU óptimos, que pueden describirse como: bajo la condición de que la relación total esté limitada por R especial, un la selección de un modo PU y un modo TU es La distorsión total D de una CU es la más pequeña; ○ El modo TU afectará la selección de los parámetros de codificación de la PU. Para reducir la complejidad computacional, pruebe solo diferentes modos TU para la PU óptima modo;
  6. Optimización de la tasa de distorsión de la capa de PU ○ El propósito
    de la tasa de distorsión de la capa de PU es seleccionar el modo de predicción óptimo y los parámetros de predicción para la PU actual;

Supongo que te gusta

Origin blog.csdn.net/yanceyxin/article/details/131984422
Recomendado
Clasificación