多模态知识学习

问题背景
- 海量多模态数据，人类认知事物也是多模态的
- 深度学习为多模态联合学习奠定基础
- 感知智能->认知智能
- 多模态学习case：微软小冰、视频平台“只看TA”（服务特定明星粉丝等：优酷、爱奇艺等）
- 需求：多模态数据从“能用”到“可用”，非结构化的多模态数据结构化，帮助细粒度的推理
- 挑战：
  - 1、异构信息融合（文本、图像、语音等）
  - 2、从多模态数据转化成结构化的数据，非常难，且相较于非结构化文本，多模态信息表达实体关系的方式更加复杂且多样。
  - 3、即使获取到了多模态的结构化知识，如何将信息链接到对应知识仍有一定的难度；多模态信息中，对于同一事物的表达，形式比远比文本信息更为丰富，也容易受到模态间或外部信息的干扰。
如何解决？
- 任务1:多模态实体表征
  - 基本思路：通过知识融合模块，使各个模态在语义空间层面实现统一；多模态对比学习，基于孪生网络，实现多模态的增强融合；跨模态的表达存在歧义情况，不加区分将舞蹈语义表征部分
- 任务2:多模态关系学习，
  - 为什么需要多模态信息的结构化表达？采用图结构规范表达目标及其关联
  - 如何实现多模态信息的结构化表达？
    - 思路1:采用类似知识图谱关系补全的方法，补全完善目标间的关系；跨模态交叉注意力；三元协同注意力（TCA）模块，用于通过注意力赋权衡量信息重要性并弥合模态差距；设计对比语义采样器，应对知识中普遍存在的1对多关系干扰
    - 思路2:借助大模型，将目标关系识别任务转化成视频问答任务，构建问题-答案查询模版，输入大模型；采用对比学习，引导模型从上下文提炼正确的分类依据，并过滤低质量信息；
实体链接
- 多模态的实体链接挑战：
  - 语义表达不统一；
  - 语义信息简略；
  - 隐式语义难以挖掘，部分语义需要推理获得：通过多个层次交互，弥补语义不足；门控机制；
- 还有哪些信息有助于实现多模态信息的实体链接？
  - 辅助共现关系作为线索；
  - 关联能否转化成共现关系，往往取决于所在的特定场景，需要首先识别当前场景的共现概率；
总结展望

大模型时代来临，多模态知识学习的作用或更凸显；不仅需要丰富的想象，也需要严谨的推理，这有赖于多模态知识与大模型的进一步结合；

猜你喜欢