交大翟广涛教授：眼见不实，怎样评价媒体体验质量

提高用户体验质量是音视频媒体平台共同面对的关键问题。2022年10 月 15 日“小红书 REDtech 青年技术沙龙”活动中，我们有幸上海交通大学电子信息与电气工程学院电子系翟广涛教授带来分享《媒体体验质量评价》，从人眼视觉系统引入，翟教授详细阐述了媒体体验质量评价工作的意义，以及具体技术思路。

翟广涛：研究领域为多媒体智能，发表国际期刊及会议论文四百余篇，被引用 1 万余次，入选爱思唯尔中国高被引科学家。曾获得全国优博、优青、青年拔尖人才、杰青等荣誉，主持 NSFC 重点、国家重点研发等项目。获中国电子学会自然科学一等奖、PCS2015 和 IEEE ICME 2016 最佳学生论文奖、IEEE TMM 2018 最佳论文奖和 2021 最佳论文提名奖、IEEE MMC Workshop 2019、CVPR DynaVis Workshop 2020、IEEE BMSB 2022 最佳论文奖等，任 Displays（Elsevier）主编、《中国科学：信息科学》编委、IEEE CAS MSA/ SPS IMVSP 成员、中国电子学会青年科学家俱乐部副主席、中国图象图形学学会理事、上海市图像图形学学会副理事长。

以下内容根据翟老师现场报告整理

人眼视觉系统

人眼是获得信息的来源，但是信息进入人眼之后又经过了非常复杂的处理，才被我们感知到，一般来说我们认为信息通过视网膜获得之后，通过视神经到了外膝体，然后到了视觉皮层进行进一步的加工，视觉底层可以分为 V1、V2、V3、V4、MT等区域。

根据统计，人类的脑皮层上超过 50% 的神经元，都和人类的视觉感知有关系。也就是说视觉感知是非常复杂的过程。我们看到的东西和我们在视网膜上获得的视觉刺激往往是不一样的。

举个例子，如图 1，离屏幕近一点盯着中间的小红点，我们会发现，盯着小红点稍久一些时周边的蓝色圆圈消失了。这个现象叫做 Troxler Fading，当周边的视觉给我们提供的信息非常有限，不再发生变化的时候，人脑就会自动忽略掉，让我们的眼睛“视而不见”。这个蓝圈在视网膜上一直是成像的，但是我们的大脑认为它不存在，让我们看不见它，也就是说人脑对视觉处理的过程是远比视网膜信号要复杂的。

Martinez-Conde, S., Macknik, S. L. & Hubel, D. H. (2004) 'The Role of Fixational Eye-Movements In Visual Perception', Nature Reviews Neuroscience, 5: 229-240;

比如下图，它本身是静止的图片，但是我们看起来会产生一点旋转。周边视觉会因为眼球震颤等原因会产生上一个时刻和下一个时刻在视网膜上成像的位置差，这种位置差导致我们产生图像在转动的错觉，图像没有动但我们感觉动了，也说明很多对外部世界的认知和事实是有差距的。

ANDREY KORSHENKOV/SHUTTERSTOC

这里有一个有意思的图像（如下），我们先盯着左边图片中间的黑点，持续十秒钟之后再看右边这张图，就会看出一个非常神奇的现象，它第一个时刻是彩色的。

因为我们在前面几张图像的观看过程当中人眼，包括人脑，对于某个区域的色彩产生了适应，和前面讲到的概念有点相似，这里我们的感觉还是色彩适应现象，所以人脑就会感觉到并不存在的处理过程，在视觉刺激上主动减去黄色和蓝色，因为黄色和蓝色是补色，灰色减去黄色等于蓝色，所以我们看到了蓝色的天空，灰色减去蓝色等于黄色，所以我们看到了偏蓝绿色的草地，这是为什么我们会在灰度图上看到颜色。

下图是视觉的对比度敏感函数 CSF&JPEG Q-table，从左往右频率越来越高，从下往上对比度越来越低，可以想像一个波动信号，从左往右波动越来越快，从下往上波动的幅度越来越低，我们大概就能够在屏幕上看到一个包罗线，大概在中间的位置会高一些，两边的位置会低一些。也就是说我们在中间频率的时候能够观察到的信号最小变化的值比较小，我们对中间频率的空间比较敏感。

实际上这个特性在我们看到的所有数字图像和数字视频当中已经使用了，因为我们目前看到的图像和视频大部分还是基于 DCT 来压缩，DCT 量化表格，无论是 MPAC 还是 GPAC 都考虑到了我们对不同频率成分的敏感程度，我们对低频和高频的量化可以强一些，对于中频的量化是小一些的，更好的保护中间比较敏感的频率成分。

我们这张图，里面藏了三个单词，如果说你在目前的距离上看不清，可以离的远一些，或者说摘掉眼镜，我们就可以看到了，里面藏着 “HIDE AND SEEK”。

LLLIIIOIIILLL/SHUTTERSTOCK

为什么你在当前距离看不清，因为在当前距离上这些小圆点产生的空间频率不敏感，当你离远了之后空间频率在一定程度上提升了，因为单位的视角之内，圆点的数量增加了，所以你就可以看到隐藏单词了。但是随着距离的进一步增加，离两三米以外，因为频率太高了又看不清楚了，所以我们在一个合适的空间距离上可以看到信息，说明我们对这一空间频率是最敏感的。

还有很多诸如此类的例子，举这些例子是想说明一个道理，我们看到的信号和信号本身会产生非常大的差异。

媒体体验质量评价

因为我们看到的信号和感知到的信号，落在视网膜上的信号和最后体验到的信号是有差异的，所以我们要做媒体体验质量评价，就面临很多挑战，非轻易之事。

为什么图像的信号质量是不完美的？外部的世界到我们的眼前，在一个视频通信系统里需要经历非常多的步骤，首先经过摄像机来采集信号，再进行视频处理和编码，在传输过程当中也会遇到各种失真，然后解码、显示，再经过人眼视觉系统进入我们的大脑，我们才能看得到。在整个过程当中，每一步都可能会产生失真，比如采集的时候因为亮度、距离等的不合适，可能会产生噪声，因为手抖了，可能会产生模糊，在压缩过程中可能有一些失帧、丢帧，可能会丢包和卡顿，再比如屏幕亮度不够、屏幕有过反光、视力不好等等情况。我们看到的外部世界，实际上质量往往是不完美的，所以我们要做质量评价。

据统计，人类 2022 年所拍摄的图像几乎达到1.5万亿张，也就是说每秒会有5000多张图片诞生。现在，网络上 80% 以上的流量是视频，优秀的网站每分钟上传的视频超过 300 小时，换句话说，现在网络上存在着浩如烟海，你永远不可能看完的图像和视频。

但是另外一个统计数据告诉我们，超过 90% ，甚至是99%的视频极少被看到，1% 的视频占据了 99% 的观看时间，热门视频大家都看，不热门的视频也许永远不会被看到。当然质量可能包括内容和信号本身，我们今天主要就信号质量本身来看。非常多的图像和视频因为画质本身不够好，永远不会被人看到，这些图像和视频在网络上占据了大量的存储和带宽资源，造成了巨大的浪费。

Some Statistics

我们再来说质量评价过程，这里有几幅图像和视频。第一张图像是非常清晰的，第二张过暗，第三张重影，后面是模糊，最后一个出现了卡顿。我们在判断图像好坏的过程上是人为进行了主观评价和打分。但是这个过程如果靠人完成，每分钟有超过 300 个小时的视频上传到 YouTube，不可能全部都找人看一遍，因此我们希望计算机实现客观质量评价，这也是实现海量视频和图像大规模自动化处理的必要条件。

质量评价的问题可以细分为几个类型，在两个视频之间进行比较，可以利用原始视频和失真视频的全部信息或部分信息，这两种情况叫做全参考、半参考，我们也可以只通过失真视频来判断质量，这种叫无参考。

还有一种情况，我们除了第一个失真视频之外，还有第二个失真视频，我们的任务是在没有参考的情况下，判断两路同样内容，经过不同等级，不同类型的失真之后，其相对质量究竟哪个更好，这是我们常见的质量评价任务。其中应用最广的就是无参考的质量评价，因为我们在网络上看到的视频是没有参考的，只有在编码端可以考虑参考问题。

从大的范围来说，图像、视频，或者媒体的感知质量评价实际上是感知信号处理的一个分支，感知信号处理可以追溯到 70 年代 D.Marr 对计算视觉和计算神经的开创性工作，在后来 1981 年 D.Hubel 和 T.Wiesel 因对人类视觉系统的信息处理机制研究获得诺奖，再后来又有很多专家在这一领域做出了非常多的贡献。

整体来看，视觉感知信号处理包括三部分：

1. 建立一个视觉模型，模拟感知过程。

2. 做评价算法，来衡量媒体体验媒体感知质量。

3. 利用评价结果来进一步提升感知质量。

这个过程实际上是不简单的，我们在二十年前就意识到了这个问题，指出了图像质量或者视频质量评价过程当中面临的几个挑战。

机器来理解人类感受是非常困难的，因为我们现在对人脑的运转过程，是知之甚少的。大部分情况下面临的任务是无参考的质量评价，因为没有参考信息，过程就变得非常困难，不可以通过简单的比较视觉信号和原始信号之间的空间距离来实现。

有了评价准则之后，把它融入到现有的信息处理系统之中，去提升图像和视频的感知质量，这个过程也并不简单。

我们在这个方向上有几点贡献：

结构化视觉感知模型

针对视觉感知模型的工作，我们发现目前的视觉感知模型研究可以分为两类：一类是生理启发方法，依赖一些生理学模型，复杂度非常高，但性能不高；第二类是横向拟合的方法，不考虑机制，完全用数据驱动的方式，但其泛化能力比较差。所以我们的思路是以生理心理学为依据，以信息论作为建模手段，提出了像素基元整体的结构化建模方法，从低层视觉、中层视觉，到高层视觉，分别提出了视网膜滤波模型、局部结构描述模型、自由能感知模型。

这里以自由能感知模型为例，我们的思路是把脑科学中的自由能原理引入视觉当中，并给出了形式化的计算方案，还提出了高效的加速手段，使得模型在质量评价当中能够被广泛使用。

无参考质量评价算法

我们分别利用能量反演和失真正演的手段，解决了原始信息缺失的难题。

能量反演的过程，我们有失真图像，如果想用自由能模型做质量评价，我们需要估计原图的自由能信息，这里我们提出了图像多尺度自相似的概念。我们通过失真图像的多尺度自相似去估计原图的自由能信息，从而实现比较高精度的无参考质量评价。

还有伪参考的无参考质量评价，传统的质量评价思路一般是根据质量失真图像估计原始干净图像信息，这个反演过程比较困难。我们的思路是不做反演做正演，在失真图像上添加更多失真做伪参考，此时图像如果和伪参考越像，证明质量越差，反之质量越好。由于这个过程比较稳定，所以速度较快，适于大规模应用场景。

举个例子，我们知道 UGC 是小红书的特点，UGC 视频来源非常宽泛，那么来源于真实世界内容拍摄环境不受控，质量不能保证，这种情况下如何处理质量评价问题呢？我们提出了非常有效的全参考和无参考的特征提取方法，因为有了特征之后，我们总可以通过回归或者池化的方式得到最终分数。

UGC-VQA 视频质量评价

全参考和无参考的特征提取方面，我们有一些小的贡献，模型的具体内容这里就不再仔细介绍了，这个方法效率比较高，目前已经在某些互联网企业的直播和 UGC 投稿平台当中获得使用。

流媒体视频的质量评价也是我们重要的研究内容，我们考虑了视频的卡顿，时序上和画质上的特征，用了 CNN，加 3D CNN，加 GRU这样的模式，这个算法目前也已经在一些互联网企业上线使用了。

音视频质量评价与质量分布研究

前面提到的媒体主要指的是图像和视频，但是音频没有进行考虑。另外前面讨论质量评价的时候，我们忽略了一些重要问题。

主观质量分数 MOS: Mean Opinion Score

质量评价在学术界主要是指评分的均值，但是这个均值代表质量是否合理呢。如下图，我们可以看到均值差不多，但是方差特别大，此时如果满意的阈值是48分，蓝色的图像肯定会被所有人满意，但是左边的图像会有相当部分人不满意，所以我们用传统的思路考虑均值是不够的。

质量分数分布 OSD: Opinion Score Distribution

在考虑码率或者分辨率成本时，并不是说投入的码率越高，分辨率越高，用户的体验就会一直获得提升，用户的体验有一个饱和效应。这两种问题就促使我们要考虑是否可以用简单的平均值来表示质量。我们做了大规模实验来证明实际上一个视频或者图像的主观分数的分布，并不是简单的分布，可能是长拖尾、左拖尾、或者右拖尾，也有可能产生双峰，所以我们进一步的工作，就是用 Alpha-stable 模型来模拟主观分数的分布，然后进一步提出了算法去估计参数化的模型，从而进一步更加准确预测图像或者视频的质量。

Approximation with Alpha-stable model

Audio-Visual Perception

另外，音频和视频的相互作用，也是我们做媒体的要考虑的重要内容，这块的工作分两方面。我们做视觉模型的时候考虑的音频特征，可以通过音频和视频的相关性分析来进行音频的显著性融合，当然也可以通过端到端的方式，用深度学习的方式直接做音视频的显著性模型。

Audio-Visual Attention Model

音视频联合的质量评价模型，音频的质量降低会带来整体体验的降低，这块我们较早的建立了大规模的音视频融合体验评价数据库，并且提出了相应的算法。

“Q&A”环节

Q：在 UGC 场景下哪几类的图像或者视频的质量问题解决的比较好，哪几类问题还有比较大的优化空间？

翟广涛：如果把 UGC 的视频考虑成图像的话，这些常见的图像失真，比如说模糊、噪声、偏暗，解决的非常好。

但是如果把 UGC 考虑成视频的话，视频本身的质量变化，UGC 视频可能这一帧非常好，下一帧变得非常差，这个问题的挑战其实非常大，这就是我比较简单的回答。作为画质好做，但是作为视频整体持续性的变化比较困难。

Q：如果把眼球和视觉皮质都连上 EEG 设备，然后用深度模型学习模型输出和人脑响应，这样就能够端到端的学到真实的视觉感知，然后把模型作为 perceptual loss 用于其他视觉任务训练，这个损失函数可以作为 metric，就可以实现质量评价了，老师怎么看这个设想？

翟广涛：EEG 本身的问题非常大，因为 EEG 信号噪声非常强，而且 EEG 的道数非常少，我们最常用就是 64、128，256 以上就非常难了，所以其采样非常稀疏的，皮层神经元的数量是百亿级别的，我们只用几个电极就想来表示皮层的神经活跃程度，这是不太现实的，所以这种方式虽然我也非常希望能实现，但是从本质上来看，因为采样过于稀疏了，所以在目前来看不太现实。