超越 CLIP 的视觉-语言模型:Scaling Up Visual and Vision-Language Representation Learning

Scaling Up Visual and Vision-Language Representation Learning

论文地址:

ICML 2021: https://arxiv.org/abs/2102.05918

主要工作:

在本文中,作者利用了超过10亿对图像-文本对的噪声数据集,该数据集在 Conceptual Captions 数据集中无需昂贵的过滤或后处理步骤即可获得,并使用了一个简单的双编码器架构学习了使用对比性损失来对齐图像和文本对的视觉和语言表示。

该算法不仅在 ImageNet 和 VTAB 等图像分类数据集上取得了 SOTA 的精度,而且在他们的下游任务(MSCOCO 等)以及零镜头分类任务上表现也很突出。同时该算法也支持跨模态的文本-图像对的搜索。

图像和文本编码器是通过对比损失(表述为标准化的 softmax)学习的,该损失将匹配图像文本对的嵌入推在一起,同时将不匹配图像文本对的嵌入分开。

猜你喜欢

转载自blog.csdn.net/weixin_44936889/article/details/120773907