Flamingo - 代码天地

Flamingo

企业开发 2023-09-17 02:40:42 阅读次数: 0

基于已有的图像模型和文本模型构建多模态模型。最终模型的输入是图像、视频和文本，输出是文本。

Vision encoder来自预训练的NormalizerFree ResNet (NFNet)，之后经过图文对比损失进一步学习。图片经过Vision encoder的输出是2D grid，视频按1FPS的频率采样后经过Vision encoder的输出是3D grid，都展开成1D送入Perceiver Resampler。

Perceiver Resampler能将变长的图片或者视频的特征变成固定长度，结构如下图所示。通过输入可学习的latent queries经过Attention和FFW层，得到视觉表示。

文本模型基于Chinchilla models。

通过gated cross-attention dense模块结合视觉特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制，用tanh(a)乘以文本和视觉模态cross-attention后的输出。a初始化为0。tanh-gating机制保证初始化的时候，模型不受视觉特征的影响，输出就是语言模型的输出。

视觉和文本计算cross-attention的时候使用的是single-image cross-attention，在计算图像和文本的cross-attention时，通过mask，让文本token只能看到前面的一幅图像的token。

训练数据数据集包括公开数据和自建数据。M3W（43 million webpages）、ALIGN dataset（1.8 billion images with alt-text 43 million webpages）、312 million image and text pairs、27 million short videos and text pairs。

猜你喜欢

转载自blog.csdn.net/icylling/article/details/132172520

Flamingo

Android Studio 升级 Flamingo 后 Gradle 又挂了

Web3研究：一文读懂 Flamingo DAO

Android Studio Flamingo | 2022.2.1 Patch 1(火烈鸟版本)

Android Studio Flamingo (火烈鸟) 升级踩坑记录

Android Studio Flamingo新版本Logcat使用介绍

Android Studio 2022.3 新版 flamingo 安装步骤及遇到的问题

Android studio 升级到Flamingo | 2022.2.1遇到的问题

解决Android Studio Flamingo创建项目时出现的问题

为 Android Studio Flamingo（火烈鸟）版本准备你的 app 构建的 5 种方法

Android 更新后跑不起来？快来适配 AGP8 和 Flamingo/JDK 17

Android Studio Flamingo | 2022.2.1 发布，快来看看有什么更新吧

基于LLMs的多模态大模型（Flamingo, BLIP-2，KOSMOS-1，ScienceQA）

【Android Studio】Flamingo及以上版本更新gradle插件(AGP) 7.+到8.+

Android Studio Flamingo缺失Legacy Layout Inspector功能,无法查看当前Activity解决方案

Android Studio Flamingo版本logcat没有级别筛选下拉框

5 种方法，来为 Android Studio Flamingo（火烈鸟）版本，准备你的app构建

Med-Flamingo 通过LLAMA 2进行多模式少样本学习的医疗聊天机器人

2023Flamingo安卓地图生成key时报错(keytool 错误: java.io.IOException: Invalid keystore format)

Flaming Pear Flexify 2 for Mac破解教程

Flaming Pear Flood(Photoshop水波滤镜插件)v2.08 x64 中文汉化版

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)