TextVQAデータセットとメソッドの概要

データセット

TextVQA

公式サイトリンク|ダウンロードリンク|紙リンク

データセット:28,408画像、45,336質問(37,912)、453,360回答(26,263)
トレーニングセット:21,953画像、34,602質問
検証セット:3,166画像、5,000質問
テストセット:3,289画像、5,734質問

データソース:Open Imagesv3データセット

画像ごとに1〜2の質問、各質問に10の回答、質問の平均の長さは7.18ワード、回答の平均の長さは1.58ワードです

質問の最初の4つの単語の分布:

ここに画像の説明を挿入

例:
ここに画像の説明を挿入

ST-VQA

公式サイトリンク|ダウンロードリンク|紙リンク

データセット:23,038画像、31,791質問
トレーニングセット:19,027画像、26,308質問
テストセット:2,993画像、4,163質問

データソース:Coco-Text、Visal Genome、VizWiz、ICDAR(13 + 15)、ImageNet、IIIT-STR

ここに画像の説明を挿入

質問の最初の4つの単語の分布:

ここに画像の説明を挿入

例:

ここに画像の説明を挿入

OCR-VQA

公式サイトリンク|ダウンロードリンク|紙リンク

207572枚の画像(本の表紙)、100万を超える質問と回答のペア(電車:val:テスト= 8:1:1)

データソース:ブックカバーデータセット

ここに画像の説明を挿入

例:

ここに画像の説明を挿入

EST-VQA(中国語+英語)

公式サイトリンク|ダウンロードリンク|紙リンク

データセット:25,239画像、28,062質問
トレーニングセット:20,757画像、23062質問
テストセット:4482画像、5000質問

データソース:
英語データ:Total-テキスト、ICDAR2013、ICDAR2015、CTW1500、MLT、COCO-テキスト
中国語データ:LSVT

15056英語の質問と13006中国語の質問。
画像テキストのみに回答でき、回答に対応する長方形の境界ボックス(証拠)にもマークが付けられています。

データセットの中国語と英語の分布:

ここに画像の説明を挿入

質問の最初の4つの単語の分布:

ここに画像の説明を挿入
ここに画像の説明を挿入

例:

ここに画像の説明を挿入

データセットの比較

数量比較:
ここに画像の説明を挿入

[4] ST-VQA
[24] OCR-VQA
[29] Text-VQAの
最後の行はSTE-VQAです

TextVQAとST-VQAのデータセットの比較:

  1. ST-VQAのデータソースは多様ですが、TextVQAのデータソースはOpenImagesデータセットからのみ取得されます。
  2. 提起された質問に基づいて、ST-VQAはTextVQAの質問よりも明確に回答できます。
  3. Text-VQAの画像はデータセットからフィルタリングされます。質問の39%(18K)に対する回答は、OCRの結果では見つかりませんが、ST-VQAは、ほとんどすべての画像のテキストを使用して回答できます。

方法

おすすめ

転載: blog.csdn.net/m0_38007695/article/details/107802548