【CVPR2022】VizWiz-VQA Grounding Challenge冠军算法介绍--Aurora - 代码天地

【CVPR2022】VizWiz-VQA Grounding Challenge冠军算法介绍--Aurora

企业开发 2023-09-18 22:41:22 阅读次数: 0

一、简介

之前从没接触过多模态方向，这次和在字节的师兄一起参加了一个VQA相关的比赛，发现基于图像-文本的预训练是一个很火热的领域，比如BLIP，LAVT等。在此基础上，针对VQA Grounding任务不光需要回答问题、还需要进行视觉分割的特点设计了一种双流的视觉-语言交互方法，最终在CVPR2022的VizWiz VQA Grounding赛道取得了第一名的成绩，详细介绍链接如下：

Video：ByteDance&Tianjin University --- Aurora

论文链接： Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding

二、比赛介绍

「视觉问答」是通向多模人工智能的一项基础挑战。

一个自然的应用就是帮助视障人群克服他们日常生活中的视觉挑战，如视障群体通过手机镜头捕获视觉内容，再通过语言对镜头中的内容发起提问。AI算法需要识别和描述物体或场景，并以自然语言的方式进行回答。

在CVPR 2022上，权威视觉问答竞赛VizWiz提出了新的挑战：AI在回答（Talk）有关的视觉问题时，必须精确地高亮出（Show）相应的视觉证据。

凭借端到端的DaVI（Dual Visual-Linguistic Interaction）视觉语言交互新范式，Aurora团队成功拿下VizWiz 2022 Answer Grounding竞赛的第1名。

本届竞赛中，Aurora与来自国内外知名研究机构和高校的60+团队同台竞技，包括Google DeepMind、纽约大学、浪潮国家重点实验室、西安电子科技大学和特拉华大学等。

夺冠方案的精度相比基线算法提升43.14%，领先在多模领域深耕已久的DeepMind团队3.65%。

三、DaVI Framework

VLE： (Visual-based Linguistic Encoder) understands questions incorporated with visual features and produces linguistic-oriented evidence for answer decoding.

LVD： (Linguistic-based Visual Decoder) focuses visual features on the evidence-related regions for answer grounding.

四、结果

猜你喜欢

转载自blog.csdn.net/weixin_42569673/article/details/126192232

【CVPR2022】VizWiz-VQA Grounding Challenge冠军算法介绍--Aurora

【目标检测】Grounding DINO：开集目标检测器(CVPR2023)

Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

【计算机视觉 | 目标检测 | 图像分割】Grounded Segment Anything：Grounding DINO + Segment Anything Model (SAM)介绍

CVPR2022 | 曾经火爆全网的算法！升级版来袭，支持卡通形象！

CVPR2022 | ZeroCap：零样本图像到文本生成的视觉语义算法

CVPR2022

【YOLOv7/YOLOv5系列算法改进NO.37】结合CVPR2022新作ConvNeXt网络

2022 CVPR VQA相关论文

Attacking Visual Language Grounding with Adversarial Examples

Grounding Language Models to Images for Multimodal Generation

【计算机视觉】Visual grounding系列

CVPR 2022 | 视频超分比赛冠军算法

CVPR 2022 视频超分比赛冠军算法 BasicVSR+++

CVPR2022 前沿研究成果解读：基于生成对抗网络的深度感知人脸重演算法

CVPR2022 | CVPR2022最全整理，CVPR2022下载链接，CVPR2022全部论文代码

CVPR2022 | 可精简域适应

CVPR2022《A ConvNet for the 2020s》

【CVPR2022】QueryDet论文精读

CVPR2022目标检测方向论文

【线上直播】NLP的未来—语义落地 (Semantic Grounding)

Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video

Grounding DINO-开集目标检测论文解读

Classification-Then-Grounding:Reformulating Video Scene Graphs as Temporal Bipartite Graphs

REC 系列 Visual Grounding with Transformers 论文阅读笔记

用于3D Visual Grounding的多模态场景图

CVPR2022 Oral：GAN监督的密集视觉对齐

Curve Modeling：车道线检测新工作（CVPR2022）

CVPR2022 | 长期行动预期的Future Transformer

CVPR2022 | 简单高效的语义分割体系结构

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)