ビデオ質問応答および推論-論文研究

記事ディレクトリ


更新時刻-2019.12最初のドラフト


0.はじめに

VQAの論文前研究を学ぶための最初のステップ。公表された場合に大きな会議での近年の論文の研究、など、この方向で進展を見CVPR、ICCV、ECCV、ACM MM ,, AAAIその後、一般的に使用されるデータセットと従来の方法をまとめます。

1. ACM MM

ACM MMは、コンピュータサイエンスおよびテクノロジーマルチメディアの分野における主要な国際会議であり、さまざまなデジタルメディアによって生成されたマルチアングル情報の統合と処理に焦点を当てています。VQAは、そのの一部であるが、被写体(概要マルチメディアコンテンツのマルチメディアコンテンツの理解ビジョンと言語の枝。

1.1 ACM MM 2019

  • 5つの不完全な統計があります(ビデオ/視覚的な質問の回答を含む)
論文タイトル 作者
VideoQAのオブジェクト関係を持つマルチインタラクションネットワーク 浙江大学
VideoQAの発散損失を伴う学習可能な集約ネット 電子科学技術大学
VideoQA用の質問対応チューブスイッチネットワーク 中国科学技術大学
CRA-Net:ビジュアルQAのための構成された関係注意ネットワーク 電子科学技術大学
ビジュアルQAのための消去ベースの注意学習 中国科学院オートメーション研究所

1.2 ACM MM 2018

  • 4つの不完全な統計があります(ビデオ/視覚的な質問の回答を含む)
論文タイトル 著者ユニット
ビデオ質問応答でのマルチステップ推論を探索する 天津大学
数ショットの画像キャプションと視覚的な質問応答のための高速パラメーター適応 南部科学技術大学
オブジェクトの違いの注意:視覚的な質問応答のための簡単な関係の注意 北京郵電大学
ドロップアウトを使用した視覚的な質問応答の強化 中国科学院オートメーション研究所

1.3 ACM MM 2017

  • 4つの不完全な統計があります(ビデオ/視覚的な質問の回答を含む)
論文タイトル 著者ユニット
階層型デュアルレベルアテンションネットワーク学習によるVideoQA 浙江大学
外観と動きに対する徐々に洗練された注意によるVideoQA 浙江大学

2. CVPR

CVPRはコンピュータービジョンとパターン認識に関する会議の略で、中国名はコンピュータービジョンとパターン認識に関する国際会議で、通常は毎年6月頃に開催されます。

2.1 CVPR 2019

  • 12の不完全な統計情報(ビデオ/視覚的な質問の回答を含む)がありますが、ビデオベースの統計は1つのようです
論文タイトル 著者ユニット
VideoQAのための異種メモリ拡張マルチモーダル注意モデル 井東研究所
MUREL:視覚的質問応答のためのマルチモーダル関係推論
OK-VQA:外部の知識を必要とする視覚的な質問応答のベンチマーク
視覚的な質問応答のためのディープモジュラー共同注意ネットワーク
読解としての視覚的な質問応答
視覚的質問応答のためのモダリティ内およびモダリティ間の注意フローを備えた動的融合
堅牢な視覚的質問応答のためのサイクル整合性
GQA:実世界の視覚推論と構成的質問応答のための新しいデータセット
映画ストーリーの質問応答のためのプログレッシブアテンションメモリネットワーク
視覚的な質問応答のための教師なしタスク発見を介した転移学習
視覚的質問応答モデルにおける明示的なバイアスの発見
それらすべてに答える!普遍的な視覚的質問応答モデルに向けて

2.2 CVPR 2018

  • 15の不完全な統計情報(ビデオ/視覚的質問の回答を含む)がありますが、ビデオベースの統計は1つのようです
論文タイトル 著者ユニット
ビデオ質問応答用のモーションアピアランスコメモリネットワーク
*視覚的質問応答のヒントとコツ:2017年の課題からの学習
仮定するだけではありません。ルックアンドアンサー:視覚的な質問応答のための事前知識の克服
視覚的な質問応答のための回答埋め込みの学習
視覚的な質問応答のためのデータセット間の適応
画像のキャプションと視覚的な質問応答のためのボトムアップとトップダウンの注意
視覚的な質問応答のための密な対称的共同注意による視覚表現と言語表現の融合の改善
視覚的な質問応答のデュアルタスクとしての視覚的な質問の生成
視覚的な質問応答のための焦点視覚テキスト注意
メモリ拡張ネットワークによる視覚的な質問応答
Visual Question Reasoning on General Dependency Tree
Differential Attention for Visual Question Answering
Learning Visual Knowledge Memory Networks for Visual Question Answering
IVQA: Inverse Visual Question Answering
Customized Image Narrative Generation via Interactive Visual Question Generation and Answering

2.3 CVPR 2017

  • 不完全统计有 9 篇(包括Video / Visual Question Answer),没有基于视频的
论文题目 作者单位
Graph-Structured Representations for Visual Question Answering
Knowledge Acquisition for Visual Question Answering via Iterative Querying
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering
End-To-End Concept Word Detection for Video Captioning, Retrieval, and Question Answering
Empirical Evaluation of Visual Question Answering for Novel Objects
Multi-Level Attention Networks for Visual Question Answering
A Dataset and Exploration of Models for Understanding Video Data Through Fill-In-The-Blank Question-Answering
Making the v in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

3.3 CVPR 2016

  • 不完全统计有 8 篇(包括Video / Visual Question Answer),没有基于视频的,而且看起来是刚起步
论文题目 作者单位
Stacked Attention Networks for Image Question Answering
Image Question Answering Using Convolutional Neural Network With Dynamic Parameter Prediction
Where to Look: Focus Regions for Visual Question Answering
Ask Me Anything: Free-Form Visual Question Answering Based on Knowledge From External Sources
MovieQA: Understanding Stories in Movies Through Question-Answering
Answer-Type Prediction for Visual Question Answering
Visual7W: Grounded Question Answering in Images
Yin and Yang: Balancing and Answering Binary Visual Questions

3. ICCV

ICCV 全称 International Conference on Computer Vision, 中文名为国际计算机视觉大会,每两年在全世界范围内召开一次,录用率比较低,所以在业内评价较高,是三大CV顶会中公认级别最高的。

3.1 ICCV 2019

  • 不完全统计有 5 篇(包括Video / Visual Question Answer)
论文题目 作者单位
Compact Trilinear Interaction for Visual Question Answering
Why Does a Visual Question Have Different Answers?
Scene Text Visual Question Answering
Multi-Modality Latent Interaction Network for Visual Question Answering
Relation-Aware Graph Attention Network for Visual Question Answering

3.2 ICCV 2017

  • 不完全统计有 6 篇(包括Video / Visual Question Answer)
论文题目 作者单位
Learning to Reason: End-To-End Module Networks for Visual Question Answering
Structured Attentions for Visual Question Answering
Multi-Modal Factorized Bilinear Pooling With Co-Attention Learning for Visual Question Answering
An Analysis of Visual Question Answering Algorithms
MUTAN: Multimodal Tucker Fusion for Visual Question Answering
MarioQA: Answering Questions by Watching Gameplay Videos

3.3 ICCV 2015

  • 听名字感觉像是第一篇
论文题目 作者单位
VQA: Visual Question Answering

4. AAAI

发布了20 篇原创文章 · 获赞 1 · 访问量 514

おすすめ

転載: blog.csdn.net/qq_41341454/article/details/103569017