国科大--多媒体分析与理解--2022考试回忆

国科大–多媒体分析与理解–2022年考试试题

该课程是开卷考试,但不允许截屏或者保存考试试卷,这里只能根据回忆记录考试内容,大差不差,所有答案仅供参考。

1. 论述什么是多媒体?存在哪些应用和挑战?

参考答案
(1). 多媒体是使用不同内容形式组合的内容,如文本、音频、图像、动画、视频和交互式内容。或者回答,多媒体是指计算机处理的多种信息载体的统称,包括文本、音频、图形、视频和交互式内容等形式。

(2). 多媒体分析与理解广泛应用任安防、教育、通讯、娱乐等产业中。具体地,多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。

(3). 面对的挑战如下

  • 如何对不同媒体、不同模态的数据进行表示;数据往往是海量的、高维的、非结构化的,具有本身复杂性。
  • 如何理解多媒体数据,并解决语义鸿沟等问题。
  • 如何挖掘多媒体数据之间的相互关联,即协同性与互补性。
  • 如何满足用户多样化的信息需求,处理好用户偏好与个性化。

2. 阐述反向传播的基本原理和求解思路,分析BP算法中的两种以上的典型问题,以及相应的解决方法。

参考答案
(1). 反向传播基本原理:用输出层的误差来估计前一层的误差,然后再用这个误差估计更前一层的误差,依次将误差反向传播下去,从而获得所有其它各层的误差估计;然后使用梯度下降法,结合逐层的误差估计,对网络的所有权重进行调节。

(2). 能遇到的典型问题及相应的解决方法如下:

  • 模型产生过拟合,解决方案包括:
    a. 进行数据增强、扩充训练样本。
    b. 提前在适当的时候提前停止训练。
    c. 采用 Dropout、Droppath 等技术。
    d. 加入正则比约束,如岭回归、Lasso 回归。
  • 梯度消失与梯度爆炸,解决方案包括:
    a. 采用 Relu 等无饱和区激活函数。
    b. 便用 BatchNormalization 进行归一化,避免进入饱和区。
    c. 设置梯度剪切阈值,防止梯度过大。

3. 简述预训练模型的核心思想与应用场景,给出3种典型预训练任务(自监督学习任务)的基本思路。

参考答案
(1). 预训练模型旨在通过提前在大规摸数据上进行训练,为下游任务提供更好的特征表达和基础模型,然后将其用作初始化,在较小的有监督学习数据集上进行微调,以便用于特定的任务。近年来,随着自监督学习技术的不断发展,大模型能够通过自监督学习的相关技术在海量、大规模、无标注数据上进行训练,充分地学习数据中蕴含的通用知识,为下游任务提供通用的特征表达。

(2). 典型应用场景举例:

  • 语言预训练摸型。如 GPT、BERT、ERINE 等语言模型,极大地提升了 NLP 中相关下游件务的性能。
  • 视觉预训练模型。如在 Imagenet 1K、ImageNee21K 上预训练的视觉模型;或者是使用 Moco、SimCLR、MaskFeat、MAE、BeiT 等方法训练的视觉模型,均提升了 CV 中相关下游任务的性能。
  • 多模态预训练模型。如 CLIP、ViL-BERT,Oscar,ViLT 等模型均提升了多模态下游依务的性能。

(3). 一些自监督任务的基本思路:

  • 语言掩码学习, MLM。通过预测输入语句中被mask的单词,学习语句间的上下文语义关系。
  • 上下文预测, NSP。判断两个子句是否在原文中相邻。
  • 对比学习。将相同类别或相同pair的数据拉近,不同类、不同pair数据拉远。
  • Image-Text Matching。判断当前输入的图像-文本对是否匹配。

4. 简述图像语义理解领域的主要研究内容,选择某类语义理解任务的典型方法,简述其基本过程,并分析其问题以及相关应对解决方法。

参考答案
(1). 图像语义理解旨在研究图像中存在何种物体、何种实例以及目标之间的相互关系, 期望机器能像人一样自动“看懂”外部环境。本质上是学习底层特征与高层语义之间的映射关系。

(2). 图像语义理解基本任包括:

  • 图像分类: 给每幅图像预测一个类别。
  • 图像标注: 给每幅图像预测多个语义标签。
  • 目标检测: 给图像中物体预测一个类别和一个紧致的定位目标。
  • 语义分割: 给每个像素预测一个语义标签。
  • 图像描述: 用自然语言描述图像。

(3). 目标检测的一个经典算法如下:

  • YOLO,其步骤如下:
    a. 将输入图像假想为一系列网格,并在每个网格中铺设不同大小不同尺寸的 anchor。
    b. 然后将图片送入特征网络进行特征提取。
    c. 对特征图进行解码,包括预测anchor修正量、置信度和类别概率等等。
    d. 对预测的 bounding boxes 进行过滤和 NMS 处理。

(4). 存在问题:

  • 无法解决图片中物体尺度的变化问题。
  • 解决办法:增加检测头、使用FPN网络等。

5. 简述SVD和SVD++协同推荐方法基本原理,列出基本公式;比较它们之间的优劣,讨论相关改进。(15分)

参考答案
(1). SVD
对于所有用户和所有商品打分,可以表示为一个稀疏矩阵 R R R。基于SVD的推荐方法对矩阵 R R R进行分解,并且要求矩阵元素非负,如下
R U × I = P U × K Q K × I R_{U\times I}=P_{U\times K}Q_{K\times I} RU×I=PU×KQK×I然后用 R R R中已知数据训练 P P P Q Q Q,使得 P P P Q Q Q相乘能最好地拟合已知评分。具体地,预测用户 U U U对商品 I I I的评分为:
r ^ u i = p u T q i \hat{r}_{ui}=p_{u}^{T}q_i r^ui=puTqi则预测误差为 e u i = r u i − r ^ u i e_{ui}=r_{ui}-\hat{r}_{ui} eui=ruir^ui,总平方误差为:
S S E = ∑ e u i 2 \mathrm{SSE}=\sum{e_{ui}^{2}} SSE=eui2然后将SSE作为损失对模型进行训练即可。

(2). SVD++
SVD++ 是一种改进的 SVD 方法,主要在用户和物品的隐式交互信息方面(如用户的浏览历史)来增强模型的预测能力,可以被表示为如下公式:

r ^ u , i = μ + b u + b i + q i T ( p u + ∣ I u ∣ − 1 2 ∑ j ∈ I u y j ) \hat{r}_{u,i} = \mu + b_u + b_i + q_i^T(p_u + |I_u|^{-\frac{1}{2}}\sum{j \in I_u}y_j) r^u,i=μ+bu+bi+qiT(pu+Iu21jIuyj)其中 I u I_u Iu 表示用户 u u u 所有交互过的物品的集合。SVD++ 与 SVD 的主要区别在于 SVD++ 引入了额外的用户和物品隐式交互信息,这使得 SVD++ 更具泛化能力,可以在没有评分信息的情况下进行推荐。

(3). 优劣

  • SVD 推荐算法较为筒洁,计算效率高,但训练目标单一,容易造成过拟合;且不考虑用户和物品之间的隐式交互信息,预测时不够准确。
  • SVD++ 更加灵活,考虑了用户和物品之间的隐式交互信息,效果更好,使得模型的泛化能力更强,可以在没有评分信息的情况下进行推荐。但计算更加复杂、学习效率较慢。

(4). 改进

  • 在 SVD 推荐方法中偏置项和正则项,提升模型的灵活性并防止过拟合。

6. 简述 PageRank 和 HITS 的基本原理,比较它们的优缺点,并试着阐述还可能有哪些改进的方式。(15分)

参考答案
(1). Page Rank:
PageRank 基本思想:如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的 PagePank 值越高、排名也越高;如果一个网页的PageRank 值较高,则其所键接的网页也比较重要,PageRank 值也较高。
PageRank基本公式为
r ( p ) = α ∑ q : ( q , p ) ∈ q r ( q ) w ( q ) + ( 1 − α ) 1 N r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N} r(p)=αq:(q,p)qw(q)r(q)+(1α)N1 r ( p ) r(p) r(p): 网页 q q q的 PageRank值
q q q: p p p的后向链接
w ( q ) w(q) w(q): q q q的前向链接数目
N N N: 网络中网页的总数

(2). HITS: Hyperlink Induced Topic Search
其基本原理为:一个好的 “Authority” 页面会被很多好的 “Hub” 页面指向;一个好的“Hub”页面会指向很多好的 “Authority” 页面。

(3). 优劣

  • PageRanK:
    优: 与查询无关的静态算法、具有全局性,不宜作弊。
    缺: 与主题无关,旧网页比新网页排名高。
  • HITS:
    优: 在线、具有局部性,在 NLP、社交网络中取得很好效果。
    缺: 计算复杂,易作弊。

(4). 改进
针对 PageRank 主题无关这一缺点,设置主题敏感的 PageRank 算法;预先计算离线时页面的重要性分数;然后,为一个页面计算多种重要性分数,即关于不同主题来计算这个页面的重要性分数。


7. 请简述三种以上可防止深度学习模型训练过程中数据泄露的方法,介绍方法的基本原理,并对其进行分析和比较。

参考答案

  • 基于梯度压缩的方法
    采用分层剪枝技术,去掉绝对值较小的参数梯度,减少梯度中的冗余信息;或采用量化技术对梯度进行量化,从而增加攻击难度。
  • 基于差分隐私的方法
    即在本地训练过程中使用DPSGD。
  • 基于数据变换的方法
    通过数据增强的方法对原数据集进行扩充,从而影响模型的梯度,如AutoML;从而保护数据隐私并且不影响模型的收敛。
  • 基于密码学的方法
    如基于同态加密的方法,对梯度和数据隐私进行加密。

猜你喜欢

转载自blog.csdn.net/weixin_44110393/article/details/128582937