SIMVLM：简单视觉语言模型，SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

企业开发 2022-04-04 18:27:53 阅读次数: 0

SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

论文地址：
主要工作：
具体实现：
实验结果：

论文地址：

https://arxiv.org/abs/2108.10904

主要工作：

随着视觉和文本表示联合建模的最新进展，视觉-语言预训练（VLP）在许多多模态下游任务上取得了令人印象深刻的性能。然而，对昂贵的注释的要求，包括干净的图像标题和区域标签，限制了现有方法的可伸缩性，并随着引入多个特定于数据集的目标，使预训练过程变得复杂。在这项工作中，作者放松了这些约束，并提出了一个极简的预训练框架，名为简单视觉语言模型（SimVLM）。

SimVLM通过利用大规模的弱监督，降低了训练的复杂性，并使用单一的前缀语言建模（PrefixLM）目标进行端到端训练。在没有使用额外的数据或特定任

猜你喜欢

转载自blog.csdn.net/weixin_44936889/article/details/120789833

SIMVLM：简单视觉语言模型，SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

论文解读：从自然语言监督学习可转移视觉模型Learning Transferable Visual Models From Natural Language Supervision

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）

[文献阅读]—Cross-lingual Language Model Pretraining

clip:learning transferable visual models from natural language supervision

CLIP : Learning Transferable Visual Models From Natural Language Supervision

【论文&模型学习】从自然语言监督中学习可迁移视觉 CLIP（Learning Transferable Visual Models From Natural Language Supervision）

语言模型（language model）

（五十）：COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining

【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling

【论文简介】CLIP：图像与自然语言配对预训练可迁移模型：Learning Transferable Visual Models From Natural Language Supervision

CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译

论文翻译：Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision

深度学习论文: Learning Transferable Visual Models From Natural Language Supervision

【论文视频】Clip：Learning Transferable Visual Models From Natural Language Supervision【多模态，对比学习，迁移学习】

NLP中的语言模型(language model)

线上学习-语言模型 language model

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Language Model

【论文&模型讲解】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

序列模型之语言模型（Language model）简记

弱监督学习综述（Weak Supervision 2019）

whisper:robust speech recognition via large-sacle weak supervision

统计语言模型(Statistical Language Model)-学习笔记

了解语言模型Model Language，NLP必备

【论文解读】XLNet: Generalized Autoregressive Pretraining for Language Understanding

Deep Bidirectional Language-Knowledge Graph Pretraining论文阅读

超越 CLIP 的视觉-语言模型：Scaling Up Visual and Vision-Language Representation Learning

language model and RNN

RNN Language Model 详解

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)