本篇文章是博主在人工智能等领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在学习摘录和笔记专栏:
学习摘录和笔记(18)---《多模态智能的发展》
多模态智能的发展
原文/论文出处:
- 题目:《Multimodal Intelligence: Representation Learning, Information Fusion, and Applications》
- 时间: 2019-11-10
- 作者:Chao Zhang, Zichao Yang, Xiaodong He, Li Deng
1 多模态智能定义
多模态智能旨在融合多种模态的信息进行处理实现智能应用
将多模态信号统一到同一个向量空间中,从而实现了多模态信号的交叉处理。
大型自动语音识别使用完全连接深层神经网络(DNN)与自编码器的准确性大幅提高。
自然语言在帮助机器理解图像内容方面起着关键作用,而理解意味着捕捉语言中嵌入的语义与从图像中获得的视觉特征之间的潜在相关性。
多模态表示:由于其复杂的跨模态交互作用和各模态训练数据与测试数据之间可能存在的失配问题,仍然是一个具有挑战性的问题。
2 多模态智能融合的发展
融合是多模态研究中的一个关键问题,它将从不同单模态数据中提取的信息整合到一个紧凑的多模态表示中。
- 早期融合:即特征级融合,直接将从各类单模态数据中提取的特征组合在一起,以强调模态间的相互作用,从而抑制模态间的相互作用。
- 后期融合:指模型级的融合,为每种模态建立单独的模型,并将它们的输出结合起来。
- 晚期融合:对模态间的相互作用具有较强的建模能力,但由于模态间的相互作用较为复杂,其输出值组合能力有限。最近的研究集中在中间或中间水平的方法,允许融合发生在深层模型的多层。
3 中间融合技术
中间融合技术——不仅因为它更加灵活,而且由于使用了来自预先训练的骨干模型的单模特征,各阶段之间的边界也不那么清晰。
主要用于融合文本和图像特征的三种方法包括:基于简单操作的方法、基于注意力的方法和基于张量的方法。
4 原文地址
原文地址链接:
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
文章若有不当和不正确之处,还望理解与指出。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请联系博主删除。如有错误、疑问和侵权,欢迎评论留言联系作者,或者关注VX公众号:Rain21321,联系作者。