元のリンク:https://arxiv.org/pdf/1904.08920
仕事
VQA(視覚的質問応答)は視覚的推論の方向であり、画像と画像に関連する質問が与えられた場合、質問に対する回答を期待します。既存のモデルはVQAデータセットでうまく機能しますが、VQAのサブタスクではうまく機能しません。このサブタスクは、画像内のテキストの抽出に関連するVQAです。回答は通常、画像内のテキストに関連しています(認識されたテキストのスクリーニングまたは認識されたテキストに基づく回答の生成)。
データセット
この課題を解決するために、研究者たちはオープンイメージに基づくTextVQAデータセットを提案し、テキストで認識される必要がある前者の写真に対するさまざまな問題と対応する回答を提案しました。
この図は、TextVQAデータセット内のデータの例をいくつか示しています。研究者はこのデータセットで既存のVQAモデルを実行し、正確率は約14%にすぎません。これは、このタスクに依然として大きな研究価値があることを示しています。
上の図は、データセット内の質問の長さ、回答の長さ、テキストの数、一般的な質問、一般的な回答などの統計グラフです。
質問への回答は、テキスト抽出結果から直接取得される場合と、モデル自体によって生成される必要がある場合があります。後者は、VQAフィールドの一般的な方法に対応する回答スペースを提供する必要がありますが、回答スペースに表示されず、画像に表示されるテキストは、既存のVQAモデルのパフォーマンスは低下しました。
写真のテキスト抽出は、研究の長い歴史を持つ分野であるOCR(光学式文字認識)に対応しており、成熟した手法が数多くあります。したがって、TextVQAの主な難点は、質問に応じて回答をOCR結果または回答スペースのどちらから取得するかを選択し、OCR結果または回答スペースで回答を選択することです。
これに基づいて、著者はLoRRA(ルック、リード、理由、回答)モデルを提案します。
型番
図に示すように、モデルはVQAパート、リーディングパート、アンサーパートに分かれています。VQA部分は、従来のVQAに対応して、質問に従って画像から抽出された特徴に注意の重み付けを実行します。読み取り部分は、質問に応じてOCR結果に注意の重み付けを実行します。回答部分は、前の2つの部分の結果に基づいて回答を出力します。
VQAパーツ
この部分は、VQAコンテストのチャンピオンモデルピティアに基づいています。まず、問題qをGloVeで分析して単語の埋め込みを取得します。次に、問題の埋め込みfQ(q)をLSTMで取得します。これは、画像特徴とOCRサンプルの後続の重み付け平均に使用されます。
画像の空間的特徴は、グリッドベースと領域ベースの方法でそれぞれ抽出され、前者はResNet152を使用し、後者はFaster R-CNNを使用します。抽出された特徴fI(v)およびfQ(q)は、重み付けされた空間的注意を得るために注意メカニズムを通過し、得られた結果はfQ(q)と結合されます。全体的な計算プロセスは、次のように書くことができます。
次に、fVQA(v、q)は、完全に接続されたレイヤーMLPを介して、回答空間にa1〜aNの確率分布p1〜pNを生成します。
セクションを読む
読み取り部分のOCRは、Rosetta OCRモデルに基づいています(コアはFaster R-CNNおよび完全たたみ込みモデルCTCです)。
後続の部分はVQAの部分に似ていますが、fI(v)がOCRの結果fO(s)で置き換えられる点が異なります。fAとfcombはVQAの部分構造と一致していますが、パラメーターは個別にトレーニングされます。
さらに、OCR結果のシーケンス情報は上記のプロセスでは無視されるため、OCRの注意の重みと上記の結果が結合されて、元のOCR結果のシーケンス情報がモデルに提供されます。
回答部分
回答部分は、回答スペースa1〜aNおよびOCR結果s1〜sMを含む回答のソースを決定します。OCR結果からのものである場合は、コピーモジュールを使用して回答を出力します。計算プロセスは次のように記述されます
";"スプライシングの略。MLPの後、回答スペースa1〜aNおよびOCR結果s1〜sM(softmaxではなく)でログ操作が実行され、回答が回答スペースとOCR結果に同時に存在する可能性に対処します。
一部の質問では、回答で複数のOCR結果を組み合わせる必要があることに注意してください。この点については、このペーパーではそれを解決せず、将来の作業用に予約されています。
実験
著者は、ヒューリスティックベンチマーク(左)とトレーニングモデル(右)の精度を測定しました。
左から上に向かって、左側の数値は人間のパフォーマンス、OCRのみで予測された上限(予測は正しい必要があります)、LAのみで予測された上限(大きな語彙)、LA + OCRで予測された上限、最も一般的な100の回答からランダムサンプリング、最も一般的な100の回答から頻度でサンプリング、常に最も一般的な回答(つまり「はい」)を予測、対応するグラフのOCR結果からランダムにサンプリング、対応するグラフのOCR結果から最も頻度の高い結果を選択。LA + OCR UBの正確さは、TextVQAの研究にまだ改善の余地があることを意味します。
右の図はアブレーションです。上から下に、fQ(q)、fI(v)、Pythia(VQA部分)、Pythia + OCR、Pythia + OCR +レプリケーションモジュール、Pythia + LoRRA、Pythia + LoRRA + SA(小用語集)、BAN、BAN + LoRRA、LoRRAが約27%の精度で最高のパフォーマンスを達成したことがわかります。
学習率のサイズや反復数など、実験の具体的な詳細については、元のテキストを参照してください。
また、LoRRAモデルは元のVQAデータセットでのPythiaの精度を向上させることができ、TextVQAのタスクがVQAモデルによる画像の理解を改善するのに役立つことがわかりました。
研究者たちはようやく、TextVQAデータセットと回答の出所に関するLoRRAモデルの予測結果の一部を示しました。緑は正しい、青は部分的に正しい、赤は間違っています。