超越 CLIP 的视觉-语言模型：Scaling Up Visual and Vision-Language Representation Learning

企业开发 2022-04-04 18:27:58 阅读次数: 0

Scaling Up Visual and Vision-Language Representation Learning

论文地址：
主要工作：
数据集：
Pre-training on Noisy Image-Text Pairs：
实验结果：

论文地址：

ICML 2021: https://arxiv.org/abs/2102.05918

主要工作：

在本文中，作者利用了超过10亿对图像-文本对的噪声数据集，该数据集在 Conceptual Captions 数据集中无需昂贵的过滤或后处理步骤即可获得，并使用了一个简单的双编码器架构学习了使用对比性损失来对齐图像和文本对的视觉和语言表示。

该算法不仅在 ImageNet 和 VTAB 等图像分类数据集上取得了 SOTA 的精度，而且在他们的下游任务（MSCOCO 等）以及零镜头分类任务上表现也很突出。同时该算法也支持跨模态的文本-图像对的搜索。

图像和文本编码器是通过对比损失（表述为标准化的 softmax）学习的，该损失将匹配图像文本对的嵌入推在一起，同时将不匹配图像文本对的嵌入分开。

猜你喜欢

转载自blog.csdn.net/weixin_44936889/article/details/120773907

超越 CLIP 的视觉-语言模型：Scaling Up Visual and Vision-Language Representation Learning

【微调视觉-语言模型】Learning to Prompt for Vision-Language Models

《Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning》—论文笔记

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）

【论文&模型学习】从自然语言监督中学习可迁移视觉 CLIP（Learning Transferable Visual Models From Natural Language Supervision）

clip:learning transferable visual models from natural language supervision

CLIP : Learning Transferable Visual Models From Natural Language Supervision

Learning to Prompt for Vision-Language Models

【论文简介】CLIP：图像与自然语言配对预训练可迁移模型：Learning Transferable Visual Models From Natural Language Supervision

CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译

Momentum Contrast for Unsupervised Visual Representation Learning

MOCO： Momentum Contrast for Unsupervised Visual Representation Learning

Unsupervised Visual Representation Learning by Context Prediction（2015

MoCO ——Momentum Contrast for Unsupervised Visual Representation Learning

【论文&模型讲解】VideoBERT: A Joint Model for Video and Language Representation Learning

【AIGC】16、Vision-Language 模型在视觉任务中的调研

【论文视频】Clip：Learning Transferable Visual Models From Natural Language Supervision【多模态，对比学习，迁移学习】

超越CLIP！谷歌发布首个大规模MoE架构的视觉语言模型

【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

论文阅读 Deep Attentional Structured Representation Learning for Visual Recognition

Paper Reading - Learning a Recurrent Visual Representation for Image Caption Generation

论文解读：从自然语言监督学习可转移视觉模型Learning Transferable Visual Models From Natural Language Supervision

【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作

VLT：Vision-Language Transformer用于引用的视觉语言转换和查询生成分割

「Computer Vision」Note on Deep High-Resolution Representation Learning

《HigherHRNet：Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》论文笔记

多模态预训练模型选用指南（Vision-Language Pre-traning）

[mPLUG]: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections多模态特征融合方法泛读

(HRNet)：Deep High-Resolution Representation Learning for Visual Recognition相关论文

无监督对比学习之MOCO 《Momentum Contrast for Unsupervised Visual Representation Learning》

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)