CLIP & CLAP

企业开发 2023-08-12 20:39:47 阅读次数: 0

文章目录

CLIP
CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION

CLIP

open AI
2021.2
代码&预训练模型

abstract

原有的基于有监督数据训练的计算机分类任务，在面对新的分类目标时泛化性和可用性都会变差；
本文提出使用海量网络图文匹配的数据（400 millon），做预训练模型。和NLP中的GPT模型效果类似，实现可以zero-shot的迁移到很多图像任务——在30多个图像数据集（比如OCR，视频动作识别以及细分的图像分类任务），都表现良好。比如对于ResNet-50 on ImageNet的分类任务，不需要训练数据达到精确度相当的结果。
CLIP, Contrastive Language-Image Pre-training

intro

受益于NLP大模型预训练的思路启发，是否能够利用海量的网络数据预训练模型，实现任务目标无关（task-agnoistic）的学习，从而更加适用于多样的下游任务。
之前的工作有做过描述图像内容的各种方法尝试，但是效果差于经典的方法。分析了之前的工作是在有限的标签数据以及海量的无限制文本两种方式学习的折衷。

Approach

在这里插入图片描述

从自然语言中学习的好处是：（1）可以从海量的互联网数据中学习；（2）不是传统的N类标签，从自然语言中学到一些通用的范式，而且这些范式是和自然语言结合的，从而更容易扩展到zero-shot的场景中。

Creating a Sufficiently Large Dataset

现有的图像数据集YFCC100M，筛选出有文本描述的，大约15 million
网上通过query获取，类间数量大致均衡，500,000 queries * 20000 per class，一共大约100亿（image text）对，将此数据集命名为WIT（WebImageText）

Selecting an Efficient Pre-Training Method

在这里插入图片描述

训练效率是使用/扩充自然语言监督方法的关键。相比于预测特定的单词或者生成图像的标题，如图橙线到绿线，在生成同样性能的图像embedding任务上，将预测目标替换成==对比学习目标，可以显著提升学习效率。==本文首次将对比学习引入到图文领域。过程的伪代码如下。
对原有的text encoder/image encoder 的最后一层删除，使用linear projection投影到共同的多模态空间。softmax中设置温度参数 $t$
image encoder使用了两种：（1）ResNet-50的改进版本，具体改动了哪里论文里有写；（2）ViT，基本按照原始框架实现。
text encoder：transformer-based， a 63M-parameter 12- layer 512-wide model with 8 attention heads.
实验中发现需要扩大image encoder的尺寸，但是模型对text encoder的尺寸不是很敏感。

experiment

几个不同配置的image encoder模型（不同的大小），有一些大模型训练的技巧，论文提到一些。mini batch=32,768，非常大
最大的RN50x64模型（image encoder)花费 18 days to train on 592 V100 GPUs；最大的ViT模型，花费 12 days on 256 V100 GPUs

Zero-Shot Transfer

CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION

2022.6
microsoft
code

abstract

Contrastive Language-Audio Pretraining (CLAP)：文本和audio使用两个单独的encoder，使用对比学习的训练策略，定义到同一个多模态的空间表征embedding，
128k的text-audio pair用于训练，每条audio被处理成5s的数据（～127h)，然后在16个下游任务中进行zero-shot以及finetune的对比

method

在这里插入图片描述

输入audio，text<1xL>
经过audio-encoder，将音频时间维度压缩，变成 $X_a$ ：,N是batch size；text encoder编码后输出 $X_t$ ：
分别经过线性变换，变成 $E_a$ 和 $E_t$
计算相似度矩阵

experiment

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/129160628

CLIP & CLAP

Clip

clip gradient

Clip简述

clip 语法

CSS Clip

CLIP模型

CLIP扩展

pytorch clip

【CLIP详读】

clip和clip-path inset

vim-clap: 高性能的现代化模糊查找插件 -- v0.6 更新

图片自动裁剪 clip

clip gradients 算法介绍

np.clip的用法

图片ZOOM和CLIP

tf.clip_by_value()

numpy中的clip()函数

Clip-path

clip属性参数详解

tensorflow-clip_by_value

miniprogarme-avatar clip

WPF Clip属性

background-origin,clip

tf.clip_by_value( )

A Tool to Clip Images

background-clip用法

tf.clip_by_value

background-clip

Laya的Clip组件

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)