模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的
常见的多模态问题有
视觉问答:针对图片提问题让计算机回答
多模态建索,用自然语言问句来搜图
多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测
跨模态/多模态 cross-modal
猜你喜欢
转载自blog.csdn.net/hxxjxw/article/details/115306438
今日推荐
周排行