ViLT-多模态论文复现 - 代码天地

ViLT-多模态论文复现

业界资讯 2023-07-19 01:55:09 阅读次数: 0

写在前面

个人学习记录之作。仅供参考。

相关资料

关于多模态，其实这个图片已经基本上说尽了。

然后特别推荐B站李沐大神的论文讲解：多模态论文串讲·上【论文精读·46】

论文地址：https://arxiv.org/abs/2102.03334

论文代码地址：GitHub - dandelin/ViLT: Code for the ICML 2021 (long talk) paper: "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision"

代码下载下来之后，按教程先装环境。

遇到了几个问题。

1.包因为版本的改动，需要进行修改。

如图所示，你需要将

扫描二维码关注公众号，回复： 15767284 查看本文章

./VILT/vilt/gadgets/my_metrics.py中的头文件改为
from torchmetrics import Metric

第二，需要自己下载权重文件，在GIT当中有，比较大，大约1.2GB一个。

下载好之后，同目录下新建weights，放进去。

第三测试，我直接运行了demo文件

看了下输出，基本上全是warning，可能是因为版本吧，我这边提醒好多库更新了。

进来后是这个样子，这个是demo_vqa.py的

这个是demo.py的，

我测试了几个。运行报错。

因为主要是为了学习思想，代码细节，我就不深究了。

看了下git，使用命令行启动。

python demo_vqa.py with num_gpus=0 load_path="weights/vilt_vqa.ckpt" test_only=True

测试1：请问花是什么颜色

测试2：请问这是什么？

测试3：这是什么花？

因为这是用的官方的图，我想测试下自己的。

百度了一个猫，大概是这样

测试1：这是什么？

测试2，这是什么猫？

测试3：这个猫是什么颜色？

OK，反正跑通了。。。

后续继续研究一下如何训练自己数据集。

猜你喜欢

转载自blog.csdn.net/qq_33083551/article/details/129829482

ViLT-多模态论文复现

多模态速读：ViLT、ALBEF、VLMO、BLIP

【多模态】25、ViLT | 轻量级多模态预训练模型（ICML2021）

跨模态检索论文阅读：(ViLT)Vision-and-Language Transformer Without Convolution or Region Supervision

多模态论文串讲笔记

多模态论文汇总

多模态 Image-to-Image Translation 论文

多模态：BLIP-2论文讲解

优秀的多模态融合论文有哪些？

多模态 | 基于GNN的多模态情感识别技术COGMEN项目复现

自用（跨模态、多光谱行人检测论文）

FaceBagNet论文翻译详解（多模态人脸反欺骗）

【论文笔记】多模态融合（Multimodal Fusion）

【论文&模型讲解】多模态对话 Multimodal Dialogue Response Generation

论文阅读-Attention Bottlenecks for Multimodal Fusion（多模态特征融合）

【论文解读】针对生成任务的多模态图学习

论文阅读：multimodal remote sensing survey 遥感多模态综述

多模态

论文浅尝 | 基于交互模态融合的多模态知识图谱补全

薄膜声学超材料模态叠加法Matlab实现(Zhang Yuguang论文复现)

论文复现

两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响与对多模表示学习有效的单模学习)

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文阅读：基于多模态词向量的语句距离计算方法

[深度学习论文学习笔记]多模态融合的深度学习脑肿瘤检测方法

【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示

【知识图谱论文】知识图谱的多模态数据增强表示学习

【论文阅读】Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval 图文检索多模态

多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解

近3三年多模态情感分析论文及其代码

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)