国科大--多媒体分析与理解--2019考试试题

国科大–多媒体分析与理解–2019考试试题

我是2022年参加的考试，2019年考试试题来源于网络，但答案我又做了一些整理，仅供参考。

1. 论述什么是多媒体？多媒体分析与理解有哪些应用领域和挑战？(10 分)

参考答案：
(1). 多媒体是使用不同内容形式组合的内容，如文本、音频、图像、动画、视频和交互式内容。或者回答，多媒体是指计算机处理的多种信息载体的统称，包括文本、音频、图形、视频和交互式内容等形式。

(2). 多媒体分析与理解广泛应用于安防、教育、通讯、娱乐等产业中。具体地，多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。

(3). 面对的挑战如下

如何对不同媒体、不同模态的数据进行表示；数据往往是海量的、高维的、非结构化的，具有本身复杂性。
如何理解多媒体数据，并解决语义鸿沟等问题。
如何挖掘多媒体数据之间的相互关联，即协同性与互补性。
如何满足用户多样化的信息需求，处理好用户偏好与个性化。

2. 简述特征表示学习的必要性，及其主要解决方法与基本原理。(15 分)

参考答案：
(1). 必要性
特征表示学习是指在机器学习中，对原始数据进行处理，提取出有用的特征信息并将其转换为模型可以处理的形式，以便对数据进行分析和建模。必要性如下：

维数灾难：随着特征维数的增加，特征空间体积呈指数增加，从而导致各方面成本增加；高维空间中样本距离的度量意义减弱，致使模型性能下降；模型参数量会随着数据维度上升而上升；维度过高容易引起模型过拟合。
原始数据通常有很大的冗余和噪声，不能直接用于建模；特征表示学习可以帮助去除冗余信息，提高数据的质量和可用性。

(2). 主要解决方法

特征降维：通过某种数学变换将样本表示由高维空间映射到低维子空间，合适的数据变换依据有：样本最大可分性、距离属性保持等；主要方法：主成分分析、线性判别分析、流形学习等。
特征选择：从给定特征集合中选择出最有效的特征子集，主要方法包括过滤法 Fliter，包裹法 Wrapper，嵌入法 Embedding。
特征融合：数据对象的表征具有天然的多特征特性，实现对数据对象的分析理解需要融合多元化数据非常重要，包括特征层融合、决策层融合。

3. 简述反向误差传播算法的基本原理，并说明该算法在神经网络训练过程中可能遇到的问题及其应对措施。(15 分)

参考答案：
(1). 反向传播基本原理：用输出层的误差来估计前一层的误差，然后再用这个误差估计更前一层的误差，依次将误差反向传播下去，从而获得所有其它各层的误差估计；然后使用梯度下降法，结合逐层的误差估计，对网络的所有权重进行调节。

(2). 能遇到的典型问题及相应的解决方法如下：

模型产生过拟合，解决方案包括：
a. 进行数据增强、扩充训练样本。
b. 提前在适当的时候提前停止训练。
c. 采用 Dropout、Droppath 等技术。
d. 加入正则比约束，如岭回归、Lasso 回归。
梯度消失与梯度爆炸，解决方案包括：
a. 采用 Relu 等无饱和区激活函数。
b. 便用 BatchNormalization 进行归一化，避免进入饱和区。
c. 设置梯度剪切阈值，防止梯度过大。
局部极小值问题，解决方案如下：
a. 使用合适的参数初始化方式；
b. 自适应学习率调解方案；
c. 梯度下降过程中加入动量，或使用其他性能更好的优化器；

4. 简述图像语义理解的基本含义及其面临的主要挑战，选取1个用于图像语义理解任务的典型算法或模型对其具体实现过程进行详细说明。(15 分)

参考答案：
(1). 图像语义理解旨在研究图像中存在何种物体、何种实例以及目标之间的相互关系，期望机器能像人一样自动“看懂”外部环境。本质上是学习底层特征与高层语义之间的映射关系。

(2). 图像语义理解基本任包括：

图像分类: 给每幅图像预测一个类别。
图像标注: 给每幅图像预测多个语义标签。
目标检测: 给图像中物体预测一个类别和一个紧致的定位目标。
语义分割: 给每个像素预测一个语义标签。
图像描述: 用自然语言描述图像。

(3). 目标检测的一个经典算法如下：

YOLO，其步骤如下：
a. 将输入图像假想为一系列网格，并在每个网格中铺设不同大小不同尺寸的 anchor。
b. 然后将图片送入特征网络进行特征提取。
c. 对特征图进行解码，包括预测anchor修正量、置信度和类别概率等等。
d. 对预测的 bounding boxes 进行过滤和 NMS 处理。

(4). 存在问题:

无法解决图片中物体尺度的变化问题。
解决办法：增加检测头、使用FPN网络等。

5. 在NetFlix比赛中，单模型性能最好前两种算法是什么?分别阐述其基本原理及它们之间的优劣。(15分)

参考答案：
分别是基于 $S V D$ 的推荐方法和基于 $RBM$ 的推荐方法，其基本原理如下。
(1). SVD
对于所有用户和所有商品打分，可以表示为一个稀疏矩阵 $R$ ；基于SVD的推荐方法对矩阵 $R$ 进行分解，并且要求矩阵元素非负，如下
$R_{U\times I}=P_{U\times K}Q_{K\times I}$ 然后用 $R$ 中已知数据训练 $P$ 和 $Q$ ，使得 $P$ 和 $Q$ 相乘能最好地拟合已知评分。具体地，预测用户 $U$ 对商品 $I$ 的评分为。
$\hat{r}_{ui}=p_{u}^{T}q_i$ 则预测误差为 $e_{ui}=r_{ui}-\hat{r}_{ui}$ ，总平方误差为。
$\mathrm{SSE}=\sum{e_{ui}^{2}}$ 然后将 $\mathrm{SSE}$ 作为损失对模型进行训练即可。

(2). RBM
将某一用户对某一商品的评分视作一个 $so f t ma x$ 神经元， $so f t ma x$ 神经元是个长度为 $k$ 的向量，其只有一个分量为1，其余分量为0。而未评分的部分就可以用全0的 $so f t ma x$ 神经元表示。这样某个用户的评分可以用矩阵 $V$ 来表示，在给定可见单元的状态下其激活概率为：
$P\left( { {h_j} = 1\left| V \right.} \right) = \frac{1}{ {1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}$ 同理，在给定隐单元状态下，可见单元的激活率为：
$P\left( {V_i^K = 1\left| h \right.} \right) = \frac{ {\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{ {\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F { {w_{ij}}{h_j}} } \right)} }}$ 在训练阶段，输入用户打分过分的物品，依次计算输入层和隐藏层的值，完成编码过程；然后，根据隐层值计算输入值，完成解码过程。最后根据两者差距对 RBM 的权重进行更新。
在预测阶段，将用户 $u$ 的所有评分作为 RBM 的 $so f t ma x$ 单元的输入，然后计算隐藏层单元的激活概率，再计算可见层单元的概率，取所有概率的期望作为预测值。
(3). 比较：SVD计算过程虽更简单，但由于训练目标单一，容易造成过拟合，而RBM则可以防止梯度爆炸和梯度消失，但求期望的过程会比较复杂，学习效率过慢。

6. 简单描述迭代量化哈希方法(Iterative Quantization，ITQ)，并比较其与局部敏感哈希(LSH)方法的优劣。(15分)

参考答案：
(1). 迭代量化哈希方法的基本思想为，先对数据集进行PCA降维，然后寻找量化误差最小的旋转矩阵即可得到对应该最优旋转矩阵下的特征向量的二进制编码。

(2). ITQ 方法与局部敏感哈希(LSH)方法的优劣

ITQ
优点：相比局部敏感哈希(LSH)方法多了一步操作，即数据降维后使用矩阵旋转优化，可以降低量化误差。
劣势：由于PCA不同维度的方差不平衡，旋转PCA投影数据以尽量减少量化误差时需不断控制旋转角度，即找出最优的旋转矩阵和与之对应的编码，相对麻烦。
LSH
优点：通过hash function映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，计算量下降了很多，改善近似检索的计算表现。
劣势：局部敏感哈希(LSH)方法并不能保证一定能够查找到与query data point最相邻的数据。

7. 阐述 PageRank 的基本原理，并试着阐述还可能有哪些改进的方式。(15 分)

参考答案：
(1). Page Rank:
PageRank 基本思想：如果一个网页被很多其它网页所链接，说明它受到普遍的承认和信赖，那么它的 PagePank 值越高、排名也越高；如果一个网页的PageRank 值较高，则其所键接的网页也比较重要，PageRank 值也较高。
PageRank基本公式为
$r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N}$

$r (p)$ : 网页 $q$ 的 PageRank值
$q$ : $p$ 的后向链接
$w (q)$ : $q$ 的前向链接数目
$N$ : 网络中网页的总数

(2). 可能的改进

主题敏感的 PageRank（Topic-Sedsitive PageRank）
在这个算法中，我们需要预先计算离线时页面的重要性的分数；然后，我们为每一个页面计算多种重要性分数，即关于不同的主题来计算这个页面的重要性分数。在查询的时候，把这些重要性分数与根据被查询的主题的重要性分数综合在一起，就形成一个复合PageRank 分数。采用这种方法能形成更加精确的排序值，而不是原始普通的排序值。
二次方程推断法（Quadratic Extra polation）
这是一个可以加快 PageRank 的运算速度的方法。它能通过周期性的削减当前的矩阵乘幂迭代的非主要特征向量的方法，大大加快其收敛速度。使用这种方法计算 PageRank 值时，当计算一个包含 8000 万个节点的网络图时，与采用原来的 PageRank 方法相比，计算速度可以提高 20%-300%。
分块矩阵排序算法（BlockRank Algorithm）
该算法是 PageRank 算法的另一个加速算法，它首先把网络根据领域划分成不同的区域，为每个区域计算它们的局部 PageRank 值；估计它们的相对的重要性（每个区域的BlockRank值）；用这个区域的Block-Rank.值来给每个区域的Block-Rank赋予一定的权重。然后再把这些加权的局部的 PageRank 值近似地看作全局的 PageRank 向量，把这个向量作为标准的 PageRank 算法的开始向量。这种方法可以减少计算的迭代次数，可以把更多的时间用于收敛速度慢的区域的计算，提高了局部 PageRank 计算的有效性。BlockRank 算法可以采取并行或分布的形式来进行计算，节约运算的时间。此外，局部的 PageRank 计算结果在以后的计算中可以被再利用。