1.介绍（introduction）

2.历史回顾（review）

3.表示（representation）

4.映射（Translation/Mapping）

以下是本人每一章节整理的笔记：

1.介绍（introduction）

论文总体介绍了多模态的五个方向/挑战：表示（representation）、映射（Translation）、对齐（Alignment）、融合（Fusion ）、联合学习（Co-learning）。

2.历史回顾（review）

对多模态应用领域进行了简单历史回顾：视听语音识别、多媒体内容检索、理解人类行为等方向应用进行简单的描述。

以下部分就开始对五个挑战/方向进行描述：

3.表示（representation）

定义：就是找到多模态信息的统一表示，在计算机中一般是向量或张量

表示方法

定义

面临困难

实现方法

适用情景

应用领域

联合表（joint）

将各个模态的数据源映射到同一个空间中进行表示

1.如何把不同模态的数据结合起来

2.如何处理不同层（level）的噪音

3.如何处理丢失的数据

神经网络

概率图模型

Sequential模型

输入所有模态数据来得出结果，如输入语音和图片来得出识别结果

视听语音识别、多模态手势识别

协同表示

（coordinated）

分别将各模态投影到独立的空间中表示，但是这些空间有约束关系

相似度模型

结构化模型

输入一种模态来得出结果，如输入一张狗的图片，输出“狗”的文本

多模态检索和翻译、grounding、零样本学习

4.映射（Translation/Mapping）

定义：映射就是把一个模态的信息映射成另一个模态的信息

映射方法	定义	面临的困难	实现方法	应用领域
基于例子模型（example-based）	在多模态之间建立字典，形成对应关系	由于答案通常非常开放和主观，难以实现评估，如一张图片的描述文字可以有多种	基于检索模型 Combination-based模型	媒体字幕生成视频描述文本生成图片
生成式模型（generative）	通过训练，让模型产生映射能力	基于语法模型编码解码模型连续生成模型

映射方法

定义

面临的困难

实现方法

应用领域

基于例子模型

（example-based）

在多模态之间建立字典，形成对应关系

由于答案通常非常开放和主观，难以实现评估，如一张图片的描述文字可以有多种

基于检索模型

Combination-based模型

媒体字幕生成

视频描述

文本生成图片

生成式模型

（generative）

通过训练，让模型产生映射能力

基于语法模型

编码解码模型

连续生成模型

5.对齐（Alignment）

定义：寻找多种模态的子成分之间的关系和对应，如图片中的狗对齐文本中的狗

对齐方法	定义	面临的困难	实现方法
显式对齐（explicit）	显式对齐就是对齐任务的子结构，如菜谱步骤和视频的对齐	1.很少有显式对齐标注的数据集 2.在模态之间设置相似度指标很困难 3.存在多种对应关系以及不是每种模态的元素在另一模态都有对应	无监督方法 (弱)监督方法
隐式对齐（implicit）	隐式对齐用作另一个任务的中间步骤，如文本检索图像，单词和图像区域的对齐	图模型神经网络

对齐方法

定义

面临的困难

实现方法

显式对齐

（explicit）

显式对齐就是对齐任务的子结构，如菜谱步骤和视频的对齐

1.很少有显式对齐标注的数据集

2.在模态之间设置相似度指标很困难

3.存在多种对应关系以及不是每种模态的元素在另一模态都有对应

无监督方法

(弱)监督方法

隐式对齐

（implicit）

隐式对齐用作另一个任务的中间步骤，如文本检索图像，单词和图像区域的对齐

图模型

神经网络

6.融合（Fusion ）

定义：将多个模态的信息整合到一起来预测结果

融合方法	定义	面临的困难	实现方法	适用场景	应用领域
无模型方法	不依赖与某个特定的机器学习算法	1.信号可能不是时序对齐的（密集连续的信号和稀疏的事件），比如一段视频只对应一个单词 2.每种模态在不同时间点可能会出现不同类型和不同层次的噪音	特征融合决策融合混合融合	它们几乎可以使用任何单模分类器或回归器来实现	多模态说话者（speaker）识别多媒体事件检测
基于模型的方法	显式的在构造中完成融合	多核学习图模型神经网络	在数据量有限或者模型的可解释性很重要的时候，多核学习和图模型更好	物标分类表情识别视听语音识别

融合方法

定义

面临的困难

实现方法

适用场景

应用领域

无模型方法

不依赖与某个特定的机器学习算法

1.信号可能不是时序对齐的（密集连续的信号和稀疏的事件），比如一段视频只对应一个单词

2.每种模态在不同时间点可能会出现不同类型和不同层次的噪音

特征融合

决策融合

混合融合

它们几乎可以使用任何单模分类器或回归器来实现

多模态说话者（speaker）识别

多媒体事件检测

基于模型的方法

显式的在构造中完成融合

多核学习

图模型

神经网络

在数据量有限或者模型的可解释性很重要的时候，多核学习和图模型更好

物标分类

表情识别

视听语音识别

7.联合学习（Co-learning）

定义：通过数据源丰富的模态来辅助数据源稀少的模态进行学习

按数据分类	定义	实现方法	应用领域
平行数据	来自相同的数据集，实例之间有直接的对应关系	Co-training Transfer learning	视觉分类动作识别视听语音识别语义相似度估计
非平行数据	来自不同的数据集，没有重叠的实例，但在一般类别或概念重叠	Transfer learning Conceptual grounding Zero shot learning
混合数据	实例或概念由第三种模式或数据集连接	Bridging

按数据分类

定义

实现方法

应用领域

平行数据

来自相同的数据集，实例之间有直接的对应关系

Co-training

Transfer learning

视觉分类

动作识别

视听语音识别

语义相似度估计

非平行数据

来自不同的数据集，没有重叠的实例，但在一般类别或概念重叠

Transfer learning

Conceptual grounding

Zero shot learning

混合数据

实例或概念由第三种模式或数据集连接

Bridging

8.结论（conclusion）

作者在结尾讲到，以前对融合这个方向做了很长时间研究，但是近段时间研究者们更热衷表示和映射这两个方向

dxwell6

发布了8 篇原创文章 · 获赞 11 · 访问量 713

私信关注

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

1.介绍（introduction）

2.历史回顾（review）

3.表示（representation）

4.映射（Translation/Mapping）

5.对齐（Alignment）

6.融合（Fusion ）

7.联合学习（Co-learning）

8.结论（conclusion）

猜你喜欢