データセット
TextVQA
データセット:28,408画像、45,336質問(37,912)、453,360回答(26,263)
トレーニングセット:21,953画像、34,602質問
検証セット:3,166画像、5,000質問
テストセット:3,289画像、5,734質問
データソース:Open Imagesv3データセット
画像ごとに1〜2の質問、各質問に10の回答、質問の平均の長さは7.18ワード、回答の平均の長さは1.58ワードです
質問の最初の4つの単語の分布:
例:
ST-VQA
データセット:23,038画像、31,791質問
トレーニングセット:19,027画像、26,308質問
テストセット:2,993画像、4,163質問
データソース:Coco-Text、Visal Genome、VizWiz、ICDAR(13 + 15)、ImageNet、IIIT-STR
質問の最初の4つの単語の分布:
例:
OCR-VQA
207572枚の画像(本の表紙)、100万を超える質問と回答のペア(電車:val:テスト= 8:1:1)
データソース:ブックカバーデータセット
例:
EST-VQA(中国語+英語)
データセット:25,239画像、28,062質問
トレーニングセット:20,757画像、23062質問
テストセット:4482画像、5000質問
データソース:
英語データ:Total-テキスト、ICDAR2013、ICDAR2015、CTW1500、MLT、COCO-テキスト
中国語データ:LSVT
15056英語の質問と13006中国語の質問。
画像内のテキストのみに回答でき、回答に対応する長方形の境界ボックス(証拠)にもマークが付けられています。
データセットの中国語と英語の分布:
質問の最初の4つの単語の分布:
例:
データセットの比較
数量比較:
[4] ST-VQA
[24] OCR-VQA
[29] Text-VQAの
最後の行はSTE-VQAです
TextVQAとST-VQAのデータセットの比較:
- ST-VQAのデータソースは多様ですが、TextVQAのデータソースはOpenImagesデータセットからのみ取得されます。
- 提起された質問に基づいて、ST-VQAはTextVQAの質問よりも明確に回答できます。
- Text-VQAの画像はデータセットからフィルタリングされます。質問の39%(18K)に対する回答は、OCRの結果では見つかりませんが、ST-VQAは、ほとんどすべての画像のテキストを使用して回答できます。