AI:多模态和大模型的一些经验总结daiding

AI:多模态和大模型的一些经验总结daiding

目录

多模态相关

大规模预训练模型


文章更新中……

多模态相关

多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型

我们对世界的体验是多模态的(五大感官)——我们看到物体(视觉)听到声音(听觉)感觉到质地(触觉)闻到气味(嗅觉)品尝味道(味觉)其实还包括第六感(心觉)。模态是指事物发生或经历的方式,当一个研究问题包含多种模态时,它就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解读这些多模态信号。多模态机器学习旨在建立能够处理和关联来自多种模式信息的模型。这是一个充满活力的多学科领域,其重要性和潜力都在不断增加。本文不关注具体的多模态应用,而是对多模态机器学习本身的最新进展进行了调查,并将它们以一种常见的分类方式呈现出来。我们超越了典型的早期和晚期融合分类,并确定了多模态机器学习面临的更广泛的挑战,即:表示翻译对齐融合共同学习。这种新的分类方法将使研究人员更好地了解该领域的现状,并确定未来的研究方向。

五个挑战:

1)、表示第一个基本挑战是学习如何以一种利用多模态的互补性和冗余性的方式来表示和总结多模态数据。多模态数据的异质性使得构造这样的表示具有挑战性。例如,语言通常是符号化的,而视听形式将被表示为信号。

2)、翻译第二个挑战是如何将数据从一种模态转换(映射)到另一种模态。不仅数据是异质的,而且模态之间的关系往往是开放的或主观的。例如,存在许多描述图像的正确方法,并且可能不存在一种完美的翻译。

3)对齐第三个挑战是识别来自两个或更多不同模态的(子)元素之间的直接关系。例如,我们可能想要将菜谱中的步骤与显示菜肴制作过程的视频对齐。为了应对这一挑战,我们需要衡量不同模态之间的相似性,并处理可能的长期依赖和歧义。

4)融合第四个挑战是将来自两个或更多模态的信息连接起来进行预测。例如,在视听语音识别中,将嘴唇运动的视觉描述与语音信号融合在一起来预测口语单词。来自不同模态的信息可能具有不同的预测能力和噪声拓扑,至少在一种模态中可能丢失数据。

5)、共同学习第五项挑战是如何在模态、表示和预测模型之间传递知识。这可以通过协同训练、概念基础和零样本学习的算法来例证。共同学习探索了如何从一个模态学习知识可以帮助在不同模态上训练的计算模型。当其中一种模态的资源有限(例如,注释数据)时,这个挑战尤其重要。

作为调查的一部分,我们介绍了多模态机器学习的分类:表示翻译对齐融合共同学习

其中一些如融合已经被研究了很长时间,但最近对表示翻译的兴趣导致了大量新的多模态算法和令人兴奋的多模态应用。

我们相信我们的分类法将有助于对未来的研究论文进行分类,并更好地理解多模态机器学习面临的剩余未解决问题。

   " 模态 "(Modality)是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官经验接收信息通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式
每一种信息的来源或者形式,都可以称为一种模态

不同模态(例如图像、文本、音频)中学习的方式存在很大差异

早期的深度学习算法专注于从一个单一的数据源训练其模型。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合,为计算器提供更接近于人类感知的场景

 多模态学习成为当中的重要趋势,它可以被应用在归一、表示、转化、翻译、对齐、融合协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

要解决这个问题,需要从端到端打通各个模态之间的关系,形成可以真正多维度交互的智能机器,让感知智能升级为认知智能

大规模预训练模型

近年来,BERT和GPT等大型预训练模型(PTM)取得了巨大的成功,成为人工智能(AI)领域的一个里程碑。由于复杂的训练前目标和庞大的模型参数,大规模PTMs能够有效地从大量有标签和无标签的数据中捕获知识。通过将知识存储到巨大的参数中,并对特定的任务进行微调,隐含在巨大参数中的丰富知识可以使各种下游任务受益,这已通过实验验证和经验分析得到广泛证明。现在AI社区的共识是采用PTMs作为下游任务的骨干,而不是从零开始学习模型。在本文中,我们深入研究了预训练的历史,特别是它与迁移学习自我监督学习的特殊关系,以揭示PTMs在人工智能发展谱系中的关键地位。此外,我们全面回顾了PTMs的最新突破。这些突破是由计算能力的激增数据可用性的增加驱动的,朝着四个重要方向发展:设计有效的架构,利用丰富的上下文提高计算效率,以及进行解释和理论分析。。最后,我们讨论了PTMs的一系列有待解决的问题和研究方向,希望我们的观点能对PTMs的未来研究有所启发和推动。

深度神经网络,与以前主要依赖手工特征和统计方法非神经模型不同,神经模型可以从数据中自动学习低维连续向量(又称分布式表示)作为任务特定的特征,从而摆脱复杂的特征工程

猜你喜欢

转载自blog.csdn.net/qq_41185868/article/details/127156732