スタンフォード | ジェネレーティブ検索エンジン向けの ChatGPT の実現可能性

3ae07ee5070ae9bbca715b1a76624e93.png

テキスト|地面に落としたIQ

ChatGPT がテキスト生成の分野で重要な一歩を踏み出したように、Bing ブラウザーもチャットボット機能に接続されているため、Bing Chat などの検索エンジンの結果の正確性と信頼性をどのように確保するかが、ホットなトピックの 1 つになっています。検索フィールド。

検索エンジンを使用するとき、検索結果が私たちのニーズを真に正確に反映することを期待することがよくあります。ただし、情報量が多く、検索エンジンの構造が複雑なため、誤った情報や欺瞞的な情報が含まれている可能性があります。これは、取得する情報の品質だけでなく、検索エンジンの信頼性と使用にも影響を与えます。

信頼できるジェネレーティブ検索エンジンの前提条件は、検証可能性です。つまり、システムは包括的かつ正確に引用する必要があります。

スタンフォード大学の最近の新しい研究では、ジェネレーティブ検索エンジンの検証可能性を評価する方法が提供されています。これは、検索エンジンのアルゴリズムとモデルの品質を評価することで、検索結果の信頼性と正確性をテストし、検索エンジンの透明性と信頼性をさらに促進できることを意味します。この研究を一緒に見てみましょう。この記事を開いたあなたが、ジェネレーティブ検索エンジンの評価に関する詳細を理解し、この方向性の将来の発展についての思考と探求を刺激することを願っています.

論文タイトル
ジェネレーティブ検索エンジンにおける検証可能性の評価

論文リンク
https://arxiv.org/abs/2304.09848

コードアドレス:
https://github.com/nelson-liu/evaluating-verifiability-in-generative-search-engines


ジェネレーティブ検索の検証可能性の調査

信頼できるジェネレーティブ検索エンジンの前提条件は、検証可能性です。つまり、外の世界について生成された各応答は、一連のオンライン参照によって完全にサポートされている必要があり、提供された各参照は、関連する応答によってサポートされている必要があります。検証可能性により、読者は、生成された返信が引用元によってサポートされていることを簡単に確認できます。

人間の評価を使用して、著者はさまざまなタイプのクエリについて、4 つの一般的な商用ジェネレーティブ検索エンジンを比較します。各クエリと応答のペアについて、さまざまな側面の次元を測定するために人間の評価が利用されます。

  • 流暢さ (生成されたテキストが流暢で一貫性があるかどうか);

  • Perceived utility (経済学の用語で、ユーザーが主観的に感じる満足度、つまり、質問に対する回答と豊富な情報を含む回答が役に立ったかどうかという意味で、理解を容易にするために、この用語は実用性に置き換えられます。次のテキスト);

  • 引用想起 (引用によって完全に裏付けられた、外の世界に関する生成された応答の割合);

  • 引用精度 (関連する返信をサポートする生成された引用の割合)。

NaturalQuestions からのさまざまな過去の Google ユーザー クエリ、および Reddit からの動的で自由形式の質問について、応答を表 1 の例として詳しく説明します。クエリはさまざまなソースからのものであり、さまざまな回答タイプからの知識が必要です。

73bd7e1da55726b94dc66be65fc9f3c7.png
▲表1 各評価クエリ分布のクエリ例

したがって、信頼できるジェネレーティブ検索エンジンは、高い引用再現率と精度を達成する必要があります。これは、生成される引用が包括的 (生成された各応答が引用によって完全にサポートされている) かつ正確であること (各引用が関連する応答によってサポートされている) を示す必要があります。

上記の 4 つの評価次元について、既存のジェネレーティブ検索エンジンの応答は通常、高い流暢さと実用性を備えていますが、多くの場合、サポートされていない応答または不正確な参照 (再現率と精度の要件を満たしていません) が含まれており、流暢さと実用性の高さと負の相関関係さえあります。たとえば、図 1 では、ジェームズ ウェッブ宇宙望遠鏡に関する知識がほとんどないユーザーは、生成された応答のどのステートメントが外部の信頼できるソースによってサポートされていないかを識別するのが難しい場合があります。また、生成されたすべての応答が引用によって完全にサポートされているわけではないことも示しています( )、また、すべての引用が関連する応答 (引用精度) をサポートしているわけではありません

fd43b4962471eba038ad257e74d8d6ad.png
▲図 1 ジェネレーティブ検索エンジンは、カスタマイズされた返信とオンライン引用を生成することで、ユーザーのクエリに回答します

したがって、信頼できるジェネレーティブ検索エンジンを開発するためのさらなる努力を促進するために、著者は人間が評価した注釈を公開しています。

流暢さ、有用性、信頼性に関する人間による評価

最初に入力としてユーザー クエリが与えられると、ジェネレーティブ検索エンジンがテキスト応答 (埋め込まれたオンライン引用の文字列) を生成します。引用の精度と再現率を評価するには、最初にステートメントのセットに分割し、その中のステートメントごとに (場合によっては空の) セットを作成します。各参照には、URL とそのコンテンツがあります。

流暢さと使いやすさの測定

ユーザーのクエリ、生成された応答、および応答が流暢で首尾一貫しているという記述を考慮して、アノテーターは、「強く同意しない」から「強く同意する」までの 5 段階のリッカート尺度を使用して、応答の流暢さを評価するよう求められました。同様のプロセスを使用して有用性を測定し、応答が「クエリに対する有益で有益な回答」と見なされる程度を評価します。

引用想起の測定

引用想起率は、関連する引用によって完全にサポートされている検証可能なステートメントの割合です (具体的な例については、図 2 を参照してください)。したがって、参照リコールの計算には次が必要です。

  1. 応答で検証可能なステートメントを識別します。

  2. 検証可能な各ステートメントが、関連する引用によって完全にサポートされているかどうかを評価します。

be1799d1f9d74652f3c6d0706e32be73.png
▲図2 参照再現率と適合率の計算方法のモデル例

引用精度の測定

引用の精度は、生成された引用が問題のステートメントをサポートする程度 (完全なサポート、部分的なサポート、およびサポートなし) を評価することによって測定されます (図 2 を参照)。また、関連する引用ページの結合が問題のステートメントを完全にサポートしているかどうかを考慮して、複数の引用から情報​​を集約することも目的としています。

F1を引用

引用精度と再現率の指標を組み合わせて、調和平均を計算することで引用を取得します。

引用精度 引用再現率 引用精度 引用再現率

評価設定

ジェネレーティブ検索エンジンの評価

このホワイト ペーパーでは、大規模な言語モデルと入力クエリに基づいて応答を生成し、コンテンツを取得する 4 つの商用生成検索エンジン (Bing Chat、NeevaAI、perplexity.ai、および YouChat) を評価します。同時に、これらの検索エンジンの放棄率は異なります (表 2 に示すように)。実際にはそうではありませんが、難しいクエリへの応答を生成することを単に避けてください。

9d2306376f5ffd3c1c1c871f8ffd200c.png
▲表 2 ジェネレーティブ検索エンジンは、さまざまなコンテキストで設計および展開できます

クエリの分布を評価する

ここでは、既存の商用ジェネレーティブ検索エンジンの長所と短所、および短いテキスト、長いパラグラフ、複数の回答タイプなど、さまざまなソース (Google ユーザー クエリ、Reddit の自由回答式の質問とクエリなど) からのクエリに回答する能力が研究されています。リストまたはテーブルとして。AllSouls、davinci-debate、ELI5 (KILT)、ELI5 (Live)、WikiHowKeywords などのソースからの 150 のクエリと、7 つの NaturalQuestions サブカテゴリ クエリのそれぞれからの 100 のクエリを含む、さまざまなトピックに関する 1450 のランダム クエリが使用されました。

これらの 12 のクエリ ディストリビューションで既存のジェネレーティブ検索エンジンを評価するこれらの多様なシナリオは、いくつかの潜在的なユース ケースと情報ニーズをカバーする幅広い範囲を提供し、システムの長所と短所を完全に理解するのに役立ちます。

ヒューマンアセスメントプログラム

このセクションでは、クエリと応答のペアにアノテーションを付けるプロセスを紹介します。ここで、アノテーターは応答の品質を評価するために 3 つのステップを完了します。

  1. まず、応答の流暢さと有用性を評価します。

  2. 第二に、検証不可能なステートメントのスクリーニング。

  3. 最後に、検証可能な応答とそれに関連するシステム生成の引用が評価されます。

アノテーターは Amazon クラウドソーシング プラットフォームを使用してアノテーションを行い、アノテーションを付けるデータセットには合計 1450 のクエリが含まれています。各クエリと応答のペアには、1 回だけ注釈が付けられます。同時に、ランダムにサンプリングされた 250 のクエリと応答のペアが 3 つの評価方法を使用して比較され、より高い整合性レベルが計算されました。

実験結果と分析

著者は、流暢さと有用性は一般的にさまざまなジェネレーティブ検索エンジンで高く、参照の再現率と精度はかなり低いことを発見しましたが、システムとクエリの分布は確かに異なる動作をします. 流暢さと高い有用性に伴う信頼性と組み合わせると、既存の生成型サブ検索エンジンがユーザーを誤解させる可能性が高くなります。私たちの結果はまた、既存のジェネレーティブ検索エンジンの引用の再現率と精度が、流暢さと有用性と負の相関があることを示しています。これは、引用の Web ページから引用テキストをコピーまたは近似するシステムの傾向の副産物であり、引用の精度と再現率が向上するという仮説を立てています。流暢さと使いやすさが低下します。

流暢さと有用性のために、既存のジェネレーティブ検索エンジンは流暢なテキストを生成でき、応答は有益で有用であるように見えます。

  • 生成された返信はスムーズで役に立ちそうです。

  • 生成型検索エンジンの流暢さと実用性を比較し、すべての応答を集計して比較すると、Bing Chat が最もスコアが低く、NeevaAI、perplexity.ai、YouChat がそれに続くことがわかりました。

  • 複数のクエリ分布の流暢さを比較すると、自然な質問のクエリと不自然な質問のクエリは、回答の長さが長い場合に同様の平均流暢性スコアを持っていることがわかります; 一方、自然な質問のクエリでは、回答の長さが短いクエリの場合、生成された応答は一般的にスムーズです. ただし、回答が長い、または回答が長くない自然な質問クエリの場合、テーブル セルまたは検索ソース間で情報を集計する際に複雑な計算が必要になるため、生成された応答が硬くなり、全体的な流暢さが低下する可能性があります。これは、重大な外れ値分布です。

  • クエリに回答するために必要な情報が増えると、有用性が低下し、回答の抽出が難しくなります。

参照再現率と適合率について、評価結果は次のように分析されます。

  • 既存のジェネレーティブ検索エンジンは、包括的または正確に引用しない傾向があり、実験結果によると、すべてのシステムで生成された応答の 51.5% のみが引用を完全にサポートし (リコール)、引用の 74.5% のみが関連する応答を完全にサポートします (正解率)。これらの検索エンジンにはすでに何百万人ものユーザーが存在することを考えると、これらの結果は容認できないものと見なされます。

  • ジェネレーティブ検索エンジンによって、参照の再現率と精度が大きく異なります。平均すると、perplexity.ai の平均再現率が最も高く、Bing Chat の精度が最も高くなります。

  • 評価クエリの分布を変更すると、精度よりも引用の再現率に大きな影響を与えます。これは、取得した Web ページの関連性によって引き起こされます。その結果、引用でサポートされていない応答を生成すると、再現率が低下します

  • さまざまなクエリ分布での引用の正解率を比較すると、自然な質問のクエリでは長い回答の正解率が高く、生成検索エンジンの正解率は段落回答タイプの自然な質問のクエリで最も高く、AllSouls のオープンエンド テストではpaper question と davinci-debate クエリは、引用精度が最も低くなります。

要約すると、流暢さは一般にすべてのシステムで高いため、この特性は比較されていません。人間による評価セッションの 70% 以上で、Bing Chat が最高の平均引用 F1 を示しました。図 3 は、平均有用性と平均引用 F1 をプロットしたものです。システムは、実用性と F1 の参照の間でさまざまなトレードオフを行います

90e82e279b94ea2fca119a162353d990.png
▲図3 平均効用と平均参照F1の比較表

図 4 の例に示すように、ジェネレーティブ検索エンジンの引用の再現率と精度は、流暢さと実用性と負の相関があります。引用、それは通常、ユーザーの入力クエリを満たしていないため、内部の流暢さと実用性が低くなります。さらに、より高い自由度で生成されたシステムは参照コンテンツから逸脱し、結果として精度と再現率が低下しますが、これらのシステムによって生成された応答は入力クエリに答えることができ、固有の流暢さと有用性が向上します。このトレードオフは、自由記述のエッセイ タイトルを含む AllSouls クエリ ディストリビューションで特に顕著です。記事から得られた結果を引用することによって得られる従来の検索エンジンの結果は、引用の正確性を保証できますが、通常、それらはユーザーの入力クエリに適合せず、内部の流暢さと実用性が低くなります。著者らは、引用の再現率と精度は、流暢さと有用性と基本的に負の相関関係にあるわけではないと主張しています。特に、将来的には両方の世界の長所を組み合わせて、流暢で有用なジェネレーティブ検索エンジンを構築することが可能になると確信しています.

490d36f18809e13f4d27cf53c796b116.png
▲図4 負の相関の例

最後に、生成された文とサポート引用 Web ページの間の類似度を比較することによって、正解率が計算されます。実験結果は、生成された文と引用 Web ページの類似性が高いほど、対応するシステムの平均引用精度が高くなることを示しています。さらに、アノテーターは、99.5% のセンテンスの抽出可能な証拠を、少なくとも 1 つの関連するセンテンスによって完全または部分的にサポートされていることを見つけることができまし

思考と議論

  • インターネットから情報を取得する場合、情報を抽出する効果は驚くほど優れています。複数の情報源からの抽象的な推論が必要な情報クエリでも、インターネットの Web ページからの情報抽出が非常に効果的であることが証明されています。

  • ただし、クエリがインターネット上で抽出可能な明確な回答を持っていない場合、ジェネレーティブ検索エンジンがそれに回答することは困難であり、これは今後の研究の重要な方向性です.

  • さらに、既存のジェネレーティブ検索エンジンでは、コンテンツの選択、ソースの信頼性と関連性の特定と評価が困難な場合があります。

まとめ

この研究は、サポートされていない応答や不正確な引用など、既存のジェネレーティブ検索エンジンの問題を指摘しました。これは、検索エンジン業界の発展にとって非常に重要であり、リリースされると Twitter で広く議論されました。ジェネレーティブ検索エンジンを促進してより信頼性の高い結果を作成し、研究者とユーザーが技術の既存の問題をよりよく理解するのを助け、検索エンジンの品質を向上させ、検索エンジンに対するユーザーの信頼を高め、それによって市場競争力を向上させることに取り組んでいます。ジェネレーティブ検索エンジンの開発と進歩は、社会の発展と進歩を加速させます。

また、引用の再現性と正確性、流暢さと実用性の利点を完全に組み合わせ、検索エンジンの回答をより正確かつ流暢にすると同時に、信頼性を確保できる、より高度な生成検索エンジン技術が将来出現すると考えています。引用は、検索エンジンの信頼性と使いやすさをさらに高めます。これはエキサイティングな探査の見通しであり、検索エンジンの開発が改善され、人間社会の発展により役立つように、これらの技術の到来を楽しみにしています.

adddae8c3e20f63ce7d32db9381a8f56.png

かわいい家の作者:いたるところでIQが下がった

BIT でコンピュータ サイエンスの修士号を取得するために勉強しています. 最近 ChatGPT とのチャットにハマっています. 新しい NLP のアプリケーションすべてに興味があります. 幅広い興味を持つスラッシュ ユースになろうとしています ~

おすすめ作品

  1. ペッパピッグです。IJCAIの紙にピンクのドライヤーを書きます!

  2. AI は人間に取って代わり、プロンプトを自動的に生成できます

  3. ICLR 2023 の最高得点論文が盗用された? ?

  4. AIは話すときに常に「どもる」のが好きですか? このNeurIPSの論文で原因が判明し、吃音率が人間に近い!

  5. 大型トランスフォーマーのトレーニング効果を上げるには?プライマーが答えを出す

  6. ヨシュア・ベンジオ: 私の人生

Feef0f026d518de3168f49ad0708b2f6.jpegバックグラウンドでキーワードを返信 [グループに参加]

NLP、履歴書、検索プロモーション、就職活動のディスカッション グループに参加する

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/130355589