【CVPR 2022 多模态融合(有3D检测)】Multimodal Token Fusion for Vision Transformers

在这里插入图片描述

论文简介:

许多方法已经应用到了 Transformer 以解决单模态视觉任务,其中自注意模块被堆叠来处理图像等输入源。直观地说,向 Transformer 输入多种模式的数据可以提高性能,但注意力权重可能会被稀释,从而极大地削弱最终的性能。

在本文中,作者提出了一种多模态 Token 融合方法(Token Fusion),针对基于 Transformer 的视觉任务。为了有效地融合多种模式,Token Fusion 动态检测无信息的 token,

猜你喜欢

转载自blog.csdn.net/weixin_44936889/article/details/126817629