跨模态/多模态 cross-modal

模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的

常见的多模态问题有

视觉问答:针对图片提问题让计算机回答

多模态建索,用自然语言问句来搜图

多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测

猜你喜欢

转载自blog.csdn.net/hxxjxw/article/details/115306438