【笔记】ナレッジベースの VQA のための回答ヒューリスティックによる大規模言語モデルの促進

バックグラウンド

GPT-3 は、その強度を発揮するために完全にアクティブ化されていません。主な制限が 2 つあります。

1. GPT-3 は、役に立たない情報をいくつか破棄し、質問自体が懸念している情報に焦点を当てる必要があります。「街の広場を歩いている人々のグループ」は、「これらの木は何の実を結ぶのか」という質問に何も答えません。この場合、GPT-3 は質問に答えるためにとりとめのない偏った推測をしなければなりませんでした。"

 2. GPT-3 は少数の学習パラダイムを採用しており、新しいタスクに適応するためにコンテキスト内のいくつかの例が必要です。したがって、これらの例の選択は、モデルのパフォーマンスにとって重要です。

{few-shot: GPT-3 は、推論時にタスクのいくつかの例をヒントとして入力に接続するだけでよく、パラメーターの更新は必要ありません。}

この記事の考え方

1. 最初に一連の例を VQA モデルに渡し、一連のケースを取得します。

 例: 写真はおじいさんの前に置かれたバースデー ケーキですが、おじいさんが吹いているのは何ですか? 次に、VQA によって生成された回答には、ろうそく、誕生日、および火があります。

質問、セマンティクス、および候補の回答はすべて、gpt-3 に入るプロンプトとして使用され、最終的に目的の回答が得られます。

上の図によると、最終結果は次の式で表されます。

 GPT-3 は本質的に画像を理解しないため、既製のキャプション モデルを使用して画像をテキスト プロンプト (PICa) に変換する必要があります。

PICa の完全なプロンプトは、固定プロンプト ヘッダー、コンテキスト内のいくつかの例、およびテスト入力で構成されます。このキューは、回答予測のために GPT-3 に入力されます。

フェーズ 1: 回答ヒューリスティック生成

 最初に、VQA モデルには一般に 2 つのサブモデルが含まれていることを説明します。1 つは融合特徴 z を生成するための埋め込みであり、もう 1 つは回答語彙 y を生成するために使用される分類ヘッドです。

まず、最初のサブモデルを使用してフュージョン フィーチャを生成します。

2 番目のサブモデル: 語彙の回答の候補を生成します。

 著者は、上記のモデルを比較スキームとして使用し、有効性を検証するために GPT-3 のガイドラインを追加します。

以下は、著者の予備操作です。

e-setを作ることは、実際には少数ショットのサポートセットです。

生成された例では、最初に候補の回答語彙が必要であり、作成者は y で TopK スコアを選択します。

 

 これが生成されたプロンプトの例(w は語彙、y はスコア)ですが、もう 1 つのポイントとして、どの画像が例として選択されているのでしょうか。

著者は次のように述べています。

「これらの融合された機能は、特定の画像と質問のペアに対する回答の豊富なセマンティクスを含む潜在的な回答空間にあると推測しています。」

「z と zi が潜在空間で近い場合、同様の回答とイメージ質問入力を共有する可能性が高くなります。」

そのため、著者は、テスト (テスト ケース、つまり、少数ショットでのクエリ) と他の vq ペアの融合機能との間のコサイン距離を計算し、最も近い TopN を選択しました。

 

 もちろん、著者は、これらの z 特徴は事前に計算できると述べました。

フェーズ 2: ヒューリスティック拡張のヒント

上記の図 2 に示すように、次のプロセスは、gpt-3 予測を強化するためのヒントを生成することです。

それがこの部分です:

回答の候補が gpt-3 に提供されていることがわかりますが、gpt3 は新しい回答を生成することも選択できます。

 

 最後に、e-set であるかテストであるかに関係なく、gpt-3 の入力形式は次のとおりです。

それらの中で、自信は、gpt-3 がより好ましい候補の回答に焦点を当てるのに役立ちます. 著者は複数の操作を実行して gpt-3 を入力し、結果に投票します:

 

おすすめ

転載: blog.csdn.net/qq_42533666/article/details/129907345