アート VQA のデータセットとベースライン

芸術文化遺産VQAパーパー朗読

アートに関する視覚的な質問に答えるためのデータセットとベースライン



序文

美術品(絵画)に関する質問のQAは、絵画が示す視覚情報を理解するだけでなく、美術史の学習を通じて文脈的な知識を得る必要があるため、難しい作業です。この作業では、 AQUA (Question Answering in the Arts)と名付けられた新しいデータセットを構築する最初の試みを行います質問と回答 (QA) のペアは、既存の技術理解データセットで提供される図面とコメントに基づいて、最先端の質問生成方法を使用して自動的に生成されます。QA グループは、文法の正しさ、回答可能性、回答の正しさについてクラウドソーシングのワーカーによってクリーニングされます。AQUA データセットは基本的に、視覚的 (絵画ベース) と知識 (解説ベース) の質問で構成されますまた、ビジョンと知識に関する質問が独立して処理される、デュアルブランチ モデルをベースラインとして提案します。私たちはベースライン モデルと最先端の質問応答モデルを広範に比較し、芸術的なビジュアル質問応答の課題と潜在的な将来の方向性について包括的な研究を行っています。

貢献ポイント

• まず、本質的に絵画の視覚的な理解と知識を必要とする、新しい芸術解答タスクを提案します。後者はテキスト理解と考えることができます。この種の知識は書籍やウィキペディアなどのオンライン文書で見つけることができます。ビジュアルモードとテキストモードの両方を必要とする質問への回答は、これまで十分に検討されていませんでした。
• 次に、予備データセット AQUA を構築し、クラウドワーカーが手動でクリーニングした QA ペアに公開して、各質問の回答可能性、文法的な正しさ、回答の正しさを確認します。
• 3 番目に、アート QA タスク用に VIKING という名前のベースライン モデルを提案します。
ベースライン モデルは、質問に加えて、知識ベースから取得した絵画や文章も使用して、質問や絵画に関連する回答を予測します。

AQUA データセット

它最初是为语义艺术理解而设计的QA ペアを生成するためのソースとしてSemArt データセット [14] を使用します。SemArt データセットには、絵画と関連するレビューが含まれています。レビューはテキストのブロックであり、作者名や作成年など、絵画に関するメタデータが含まれる場合があります。また、絵の中の物語や、社会や作者の個人的な状況など、絵が描かれた背景について一言書くこともできます。これらのコメントは知識です絵画を理解するための AI 技術の可能性を実証するには、絵画自体の視覚的内容だけでなく、絵画を取り巻く思考にも適用できる技術を探求することが重要です。したがって、ビジョンスキーマと知識スキーマから、それぞれの質問生成方法を使用して QA ペアを生成します。

タスク定義

AQUA データセットの場合、いくつかのタスク定義が考えられます。このペーパーでは、図面関連のコメントがすべて利用可能であるという事実に焦点を当てます。より具体的には、C = {ci|i = 1,...,N}すべてのアノテーションのセットを表すものとします。AQUA タスクの目的は、v と C の特定の注釈との間の明示的な関連付けを行わずに、描画 v が与えられた場合に Cで質問 q に答えることです。このタスクでは、C は、 q に関連するアノテーションを正しく取得するときに質問に答えるために必要な情報を含む外部知識ソースとみなすことができます
このタスクのより困難な拡張は、C の代わりに Wikipedia などの他の知識ソースを使用することです。この拡張機能を使用すると、パフォーマンスはソースの品質と元のソースとの親和性にも依存します拡張機能は今後の課題として残しておきます。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_44845357/article/details/126905944