模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的
常见的多模态问题有
视觉问答:针对图片提问题让计算机回答
多模态建索,用自然语言问句来搜图
多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的
常见的多模态问题有
视觉问答:针对图片提问题让计算机回答
多模态建索,用自然语言问句来搜图
多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测