国科大--多媒体分析与理解--2018考试试题

国科大–多媒体分析与理解–2018考试试题

我是2022年参加的考试，2018年考试试题来源于网络，答案我又做了一些整理。

1. 论述什么是多媒体？多媒体分析与理解有哪些应用领域和挑战？

参考答案：
(1). 多媒体是使用不同内容形式组合的内容，如文本、音频、图像、动画、视频和交互式内容。或者回答，多媒体是指计算机处理的多种信息载体的统称，包括文本、音频、图形、视频和交互式内容等形式。

(2). 多媒体分析与理解广泛应用于安防、教育、通讯、娱乐等产业中。具体地，多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。

(3). 面对的挑战如下

如何对不同媒体、不同模态的数据进行表示；数据往往是海量的、高维的、非结构化的，具有本身复杂性。
如何理解多媒体数据，并解决语义鸿沟等问题。
如何挖掘多媒体数据之间的相互关联，即协同性与互补性。
如何满足用户多样化的信息需求，处理好用户偏好与个性化。

2. 针对文本、音频与图像数据的特征表示方法，请分别列举 2 种典型特征，并分析其优缺点。

参考答案：
(1). 文本

词频（TF）表示法
优点：用词在文档中的出现频率可表示出一篇文档中的侧重点，便于统计与分析。
缺点：文中多次出现的介词、系动词等也会被统计出较高的权重。
潜在语义分析法（LSA）
优点：通过降维，有效解决了一词多义与一义多词的问题。
缺点：仍未解决文档中间的有序性被破坏的问题。

(2). 音频

过零率
优点：能侧面反映信号在短时帧内的平均频率。
缺点：只关注了短时窗内的幅值信息，频域信息缺失。
梅尔频率倒谱系数
优点：对特征进行了去相关和压缩。
缺点：对所有频率段信息进行同等处理，不能突出重要信息。

(3). 图像

LBP
优点：一定程度上消除了光照变化的问题，具有旋转不变性，计算速度快。
缺点：光照不均时对应的LBP算子会发生变化，同时LBP也丢失了方向信息。
SIFT
优点：具有很好的尺度不变性和鲁棒性。
缺点：实时性不高，具有时特征点较少，对边缘光滑的目标无法准确提取特征点。

3. 卷积神经网络中一个典型层通常包含三种基本操作，请回答每种操作的基本含义或类型，所具备的基本特性或者优缺点。

参考答案：
典型层三种基本操作：卷积 —> 非线性变换 —> 池化

(1). 卷积操作：

含义：卷积操作又称滤波，卷积核函数又称滤波器；在输入图像上的二维卷积，卷积输出称为 feature map。
特征：通常会在同一个卷积层使用多个不同的卷积核以学习图像的不同特征。当卷积核输入包含多个通道时，可以把卷积核看成是3D的。

(2). 非线性变换：

含义：先通过 $\phi(x)$ 将 $x$ 空间的点转换成 $z$ 空间的点，而在z空间上得到一个线性的假设，再恢复到原来的 $x$ 空间中得到一个二次的假设。
特征：优点是有很好的数学性质，缺点是很容易饱和、输出不是0均值的会对梯度产生影响。

(3). 池化操作：

含义：池化函数使用某一位置的相邻位置的总体统计特征来代替网络在该位置的输出。常用的池化函数有最大池化、平均池化。
特征：当输出作出少量平移时，池化能够帮助输入的表示近似不变,即平移不变。减小参数规模，提高统计效率。在全连接层之前采用全局池化，可以保持全连接层节点数量不变，不受输入图像大小的影响。

4. 请说明图像语义理解的基本研究内容，及其各项内容的含义。请针对其中任一项内容，从中选取 1 个典型算法或模型对其具体实现过程进行详细说明。

参考答案：
(1). 图像语义理解旨在研究图像中存在何种物体、何种实例以及目标之间的相互关系，期望机器能像人一样自动“看懂”外部环境。本质上是学习底层特征与高层语义之间的映射关系。

(2). 图像语义理解基本任包括：

图像分类: 给每幅图像预测一个类别。
图像标注: 给每幅图像预测多个语义标签。
目标检测: 给图像中物体预测一个类别和一个紧致的定位目标。
语义分割: 给每个像素预测一个语义标签。
图像描述: 用自然语言描述图像。

(3). 目标检测的一个经典算法如下：
YOLO，其步骤如下：
  a. 将输入图像假想为一系列网格，并在每个网格中铺设不同大小不同尺寸的 anchor。
  b. 然后将图片送入特征网络进行特征提取。
  c. 对特征图进行解码，包括预测anchor修正量、置信度和类别概率等等。
  d. 对预测的 bounding boxes 进行过滤和 NMS 处理。

5. 详细说明基于 SVD 和 RBM 推荐方法的基本原理，并比较它们的优劣。

参考答案：
(1). SVD
对于所有用户和所有商品打分，可以表示为一个稀疏矩阵 $R$ ；基于SVD的推荐方法对矩阵 $R$ 进行分解，并且要求矩阵元素非负，如下
$R_{U\times I}=P_{U\times K}Q_{K\times I}$ 然后用 $R$ 中已知数据训练 $P$ 和 $Q$ ，使得 $P$ 和 $Q$ 相乘能最好地拟合已知评分。具体地，预测用户 $U$ 对商品 $I$ 的评分为。
$\hat{r}_{ui}=p_{u}^{T}q_i$ 则预测误差为 $e_{ui}=r_{ui}-\hat{r}_{ui}$ ，总平方误差为。
$\mathrm{SSE}=\sum{e_{ui}^{2}}$ 然后将 $\mathrm{SSE}$ 作为损失对模型进行训练即可。

(2). RBM
将某一用户对某一商品的评分视作一个 $so f t ma x$ 神经元， $so f t ma x$ 神经元是个长度为 $k$ 的向量，其只有一个分量为1，其余分量为0。而未评分的部分就可以用全0的 $so f t ma x$ 神经元表示。这样某个用户的评分可以用矩阵 $V$ 来表示，在给定可见单元的状态下其激活概率为：
$P\left( { {h_j} = 1\left| V \right.} \right) = \frac{1}{ {1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}$ 同理，在给定隐单元状态下，可见单元的激活率为：
$P\left( {V_i^K = 1\left| h \right.} \right) = \frac{ {\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{ {\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F { {w_{ij}}{h_j}} } \right)} }}$ 在训练阶段，输入用户打分过分的物品，依次计算输入层和隐藏层的值，完成编码过程；然后，根据隐层值计算输入值，完成解码过程。最后根据两者差距对 RBM 的权重进行更新。
在预测阶段，将用户 $u$ 的所有评分作为 RBM 的 $so f t ma x$ 单元的输入，然后计算隐藏层单元的激活概率，再计算可见层单元的概率，取所有概率的期望作为预测值。

(3). 比较：SVD计算过程虽更简单，但由于训练目标单一，容易造成过拟合，而RBM则可以防止梯度爆炸和梯度消失，但求期望的过程会比较复杂，学习效率过慢。

6. 简单描述迭代量化哈希方法(Iterative Quantization，ITQ)的基本思想,并比较 ITQ 方法与局部敏感哈希(LSH)方法的优劣。

参考答案：
(1). 迭代量化哈希方法的基本思想为，先对数据集进行PCA降维，然后寻找量化误差最小的旋转矩阵即可得到对应该最优旋转矩阵下的特征向量的二进制编码。

(2). ITQ 方法与局部敏感哈希(LSH)方法的优劣

ITQ
- 优点：相比局部敏感哈希(LSH)方法多了一步操作，即数据降维后使用矩阵旋转优化，可以降低量化误差。
- 劣势：由于PCA不同维度的方差不平衡，旋转PCA投影数据以尽量减少量化误差时需不断控制旋转角度，即找出最优的旋转矩阵和与之对应的编码，相对麻烦。
LSH
- 优点：通过hash function映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，计算量下降了很多，改善近似检索的计算表现。
- 劣势：局部敏感哈希(LSH)方法并不能保证一定能够查找到与query data point最相邻的数据。

7. 运动目标检测的困难有哪些？并简述目前常用方法的优缺点。

参考答案：
(1). 困难包括：光照变化、动态背景、伪装目标、相机抖动、相机对焦不准、间断的物体运动、阴影影响等等。

(2). 目前常用方法包括如下：

帧间差方法
- 优点：算法简单、容易实现、检测速度较快。而且一般相邻两帧的时间间隔比较短，因此对场景的光线变化不是特比敏感。
- 缺点：对噪声非常敏感且检测出的物体位置不精确，其次帧差法的检测结果与目标运动速度和相邻两帧间隔大小有关。目标运动过快会被分成两个目标，目运动过慢会被视作背景。
背景差分法
- 优点：算法比较简单；一定程度上克服了环境光线的影响。
- 缺点：不能用于运动的摄像头；对背景图像实时更新困难。
统计平均法
- 优点：选择适当的参数能够很好地修正背景图像，从而得到一个较为真实的背景估计图像。
- 缺点：对于频繁出现的运动目标或者在场景内停留的时间较长，该模型不能够很好的提取运动目标。在复杂场景中会将一些伪目标（如摇摆的树枝等）检测为运动目标。这是由于在场景中树枝的摇摆会引起像素值的变化。
混合高斯模型
- 优点：能适应背景随时间的缓慢变化，能描述背景中的如显示器屏幕闪烁，树枝晃动等一些周期性扰动等。
- 缺点：对于缓慢运动的目标不能精确的检测提取，不能够很好的适应阴影、噪声造成的误检或漏检，且不能适应场景的突然变化。
非参数核密度概率估计
- 优点：可以渐进收敛于任意形状的概率密度，而且对动态的场景还具有一定的适应性。
- 缺点：运算量非常大，很难实现对视频图像的实时检测。对内存要求比较高.
基于码本的运动目标检测
- 优点：鲁棒性强，计算效率高，速度快，运算量少，精确度高。
- 缺点:当训练帧存在较大运动前景时，码本模型的建立会非常不准确，更新参数的调整非常复杂，不能广泛应用于实际情况；由于对于视频每个像素都要建立一个甚至多个码本模型，训练模型比较耗时，若需要背景重构，将大大降低运算速度。
ViBe
- 优点：思想简单，易于实现。（用有限样本近似无限时间窗口）计算量小。运算效率高。（样本少；优化了相似度匹配算法）样本衰减策略。（随机更新策略使得样本生命周期指数衰减，不同于其他方法的先进先出）
- 缺点：有鬼影、静止目标、阴影前景和运动目标不完整等问题。
SubSense
- 优点：使用了反馈机制，更好适应不同场景，对噪声更为鲁棒。