ITU-T P.1203/P.1204视频质量评估标准介绍

概述

简介

国际电信联盟(ITU-T)第12研究组(SG12)和视频质量专家组(VQEG)联合开展了P.NATS(Parametric non-intrusive assessment of TCP-based multimedia streaming quality)竞赛,旨在针对HTTP视频流(如DASH)开发视频质量评估模型。P.NATS共分为两个阶段,最终分别产出了两个系列的标准化视频质量模型:

  • 阶段1 · ITU-T P.1203系列(2017年):基于比特流(bitstream)信息,预测视频流会话的整体质量(包括视频质量、初始延迟、卡顿等因素),是第一个基于HTTP的视听自适应流的标准化QoE模型
  • 阶段2 · ITU-T P.1204系列(2020年):在P.1203系列的基础上改进并扩展了视频质量评估,基于比特流、像素和混合信息,进行短期(如每个视频块)视频质量预测,其中P.1204.3的性能优于VMAF

下表总结了两个系列标准的主要差异:(*注:二者均可提供每秒视频质量预测)

系列 评估目标 输入类型 预测时长 编码支持 最高帧率 最高分辨率 适用设备
P.1203 整体质量 比特流 长期(0.5~5分钟) H.264 30fps FHD/1080p PC/TV、手机
P.1204 视频质量 比特流、像素、混合 短期(5~10 秒) H.264/H.265/VP9 60fps UHD-1/4K PC/TV、手机、平板

本文基于对官方文档和论文的翻译、梳理与总结,介绍 ITU-T P.1203和P.1204系列标准内容。如有错漏之处,敬请指正。

标准结构

image.png
上图为P.1203和P.1204的总体结构。模型的输出为1-5的平均意见分数(MOS),其中1代表质量差,5代表质量优秀。

P.1203系列一共包括四个标准文件,其中P.1203是该系列的入口文件,其他三个文件分别对应上图三个模块:

  • P v P_v PvP.1203.1,视频质量估计模块(短期,提供每秒预测),对应论文[1]
  • P a P_a PaP.1203.2,音频质量估计模块(短期,提供每秒预测),对应论文[2]
  • P q P_q PqP.1203.3,质量集成模块,给出30秒到5分钟的会话的整体质量,对应论文[3]

P.1204系列可以看作是对P.1203.1的扩展(基于可靠传输),侧重于视频质量评估,对应上图中的 P v P_v Pv模块。除了入口文件P.1204(对应论文[5])外,还包括五个文件,差异在于访问的信息类型不同:

  • P.1204.1(开发中):基于传输(transport)信息
  • P.1204.2(开发中):基于视频帧信息
  • P.1204.3:基于完整的比特流信息,对应论文[6]
  • P.1204.4:基于全(FR)和简化参考(RR)像素信息
  • P.1204.5:基于传输和接收到的像素信息(混合信息)

模型分类

视频质量评估模型按照输入信息类型开源分为四个类别[5]:

  • 基于元数据(Metadata-based):使用元数据层的信息(如视频编码、图像分辨率、帧率、码流等),这些信息可以从播放器日志或服务规划期间获得。例如:P.1203.1的模式0(见下文)
    • *此类模型也可以看作是比特流模型的轻量级变体,只分析比特流的元数据部分
  • 基于比特流(Bitstream-based):无需解码即可分析编码过的视频比特流,并且不需要访问编码前的原始比特流。例如:P.1204.3,P.1203.1的模式1-3(见下文)
  • 基于像素(Pixel-based):分析视频的解码帧,不需要了解视频的编码或传输技术,分为以下变体:
    • 全参考(Full Reference,FR)模型:通过比较原始内容(即“参考”)与解码和处理后的待测序列进行质量评估。例如:SSIM、PSNR、VMAF
    • 简化参考(Reduced Reference,RR)模型:使用参考的“简化”表示和待测序列进行质量评估。例如:P.1204.4(该模型的质量预测性能与同一算法的FR版本一样好,因此也称为RR/FR模型)
    • 无参考(No Reference,NR)模型:在不访问参考内容的情况下执行质量评估。目前尚无基于像素的NR模型能够提供足够好的预测精度
  • 混合(Hybrid):基于对像素信息和附加比特流或元数据信息进行质量评估。例如:P.1204.5

可以看出,P.1203和P.1204系列视频质量评估模型对应不同的类别:

模型 类别
P.1203.1 (mode 0) Metadata-based (NR)
P.1203.1 (mode 1-3) Bitstream-based (NR)
P.1204.3 Bitstream-based (NR)
P.1204.4 Pixel-based (RR/FR)
P.1204.5 Hybrid (NR)

注意到与基于像素的经典质量评估方法SSIM、PSNR、VMAF不同的是,P.1203.1和P.1204.3均为基于元数据或比特流的无参考(NR)模型。这样的优势[6]一是计算开销小,二是可以应用于大规模质量评估和直播中,不过相应地会在一定程度上牺牲性能。事实上,在所有P.1203和P.1204系列模型中,P.1204.4的性能是最好的[5]。

相关资料

官方介绍:ITU-T P.1203 and P.1204 model and development
官方技术报告:ITU-T Standardized Bitstream-based Video Quality Models Technical Report
第三方介绍:Introducing ITU-T Metrics P.1203 and P.1204 - Streaming Learning Center

P.1203主要论文:

P.1204主要论文:

P.1203主要开源仓库:

P.1204主要开源仓库:

P.1203.1

四种模式

image.png
P.1203包含四种操作模式,区别在于能够访问的视频信息不同(增量访问),对应不同的加密级别[1][4],如上图和下表所示。

模式 能访问的信息(增量访问) 加密级别 计算要求 性能
0 元数据信息,包括初始延迟、卡顿、视频编码、码率、分辨率、帧率、视频块时长、视频块大小等 最高 最低 最差
1 模式0信息 + 音频和视频帧大小、音频和视频帧时长、视频帧类型(如是否为I帧) 较高 较低 较差
2 模式1信息 + 最多2%的比特流信息 较低 较高 较好
3 模式1信息 + 完整比特流信息 最低 最高 最好

*注:在使用P.1203的其他研究工作中,模式0较为常用,可能是因为其所需要的信息最少。

框架概览

image.png
在前文结构图的基础上,上图进一步展示了P.1203框架的详细模块及输入输出[1][4]:

  • 输入:I.01(Stream Input)是输入的比特流,基于此导出不同类型的相关信息,包括音频(I.11)、视频(I.13)、初始加载延迟和卡顿I.14)
  • 输出:每个模块均输出1-5分的MOS分数
    • 主要输出:
      • O.22:视频质量得分,即输入视频的每秒(即每个输出采样间隔)视频质量MOS评分
        • *可以简单通过计算每秒均值来提供每10秒的视频质量分数
      • O.21:音频质量得分,与O.22对应
      • O.46:整体质量得分(将经典建模方法与基于机器学习的方法相结合进行集成)
    • 其他输出:
      • O.23:感知缓冲指示
      • O.34:综合视听质量(每秒),与O.21和O.22同步
      • O.35:最终的视听编码质量分数,是O.34的时间积分版本

视频质量评估

输入信息

image.png
P.1203框架中的 P v P_v Pv(即P.1203.1)模型使用一组从I.13导出的主要参数[1]:

  • q u a n t quant quant:量化退化(quantization degradation)参数(∈ [0, 1])
  • b r br br:码率(Kbps)
  • f r fr fr:帧率(fps)
  • r d r_d rd:显示分辨率(宽度×高度)
  • r c r_c rc:编码分辨率(像素总数)

注:输入信息由模型使用最大长度为 20 秒的滑动窗口处理,称为测量窗口;在所有 P v P_v Pv模型使用的参数中,只有 q u a n t quant quant会随不同模式(0-3)发生变化,其余参数均与模式无关。

质量计算

评估视频质量时考虑三种因素导致的质量退化:

  • D u D_u Du:空间缩放,特指放大(upscaling),与分辨率有关
  • D t D_t Dt:时间缩放,与帧率有关
  • D q D_q Dq:压缩

其中, D u D_u Du D t D_t Dt不会随着模式发生变化。

在计算具体的质量退化数值时:

  • D u D_u Du基于 r d r_d rd r c r_c rc得出,对应[1]中的公式6-7
  • D t D_t Dt基于帧率 f r fr fr得出,对应[1]中的公式8
  • D q D_q Dq基于 q u a n t quant quant b r br br等信息得出。模式0与1假设视频质量与码率之间呈对数关系,对应[1]中的公式9;模式2与3需要基于视频帧的量化参数(Quantization Parameter,QP)进行计算,对应[1]中的公式15。

之后,总体退化值为: D = D u + D t + D q D= D_u+D_t+D_q D=Du+Dt+Dq,注意需要将 D D D限界至0~100。对应地,总体视频质量为: Q v = 100 − D Q_v = 100 - D Qv=100D。最后,基于 Q v Q_v Qv计算相应的1-5分MOS分数。

P1204.3/4/5

输入&输出

image.png
上图展示了P.1204系列三种模型的输入与输出信息。三种模型的输出一致,既可以输出5-10s(一个视频块的时长)的短期视频质量MOS评分,也可以输出每秒视频质量评分。在输入方面,三种模型存在以下差异:

  • P.1204.3(基于比特流):通过解析编码比特流获得输入信息
  • P.1204.4(基于像素,RR/FR):将参考像素(源视频)信息和处理后的像素信息作为输入
  • P.1204.5(混合):使用视频元数据(如视频编码、分辨率、帧率和码率)和处理后的像素信息作为输入

质量计算

P.1204.3包括以下两部分:

  • 参数(parametric)模型(核心模型):基于算术函数将输入参数映射到质量,类似于P.1203.1的模式3,先计算 D u D_u Du D t D_t Dt D q D_q Dq三类退化的数值以及对应的视频质量,再将其转化为5分值的MOS分数
  • 机器学习模型:基于随机森林(Random Forest,RF)预测残差(residual),即参数模型无法预测的MOS(*模型的输入特征见论文[5]的表7)

P.1204.3的最终质量评分是将参数模型和机器学习模型的评分进行加权平均(论文[5]的式20)。权重默认为0.5,即等权重相加。

P.1204.4需要对参考(源)视频提取特征以完成质量估计;P.1204.5的输入包括解码后的视频信息以及比特流的元数据信息(编码、码率、分辨率、帧率等)。本文不叙述这两个模型的具体计算过程,相关内容可参阅论文[5]及对应标准文件。

猜你喜欢

转载自blog.csdn.net/LvGreat/article/details/131235064