WebAgent - 大規模な言語モデルに基づくエージェント

大規模言語モデル (LLM) は、算術、常識、論理的推論、質問応答、テキスト生成、対話型の意思決定タスクなど、さまざまな自然言語タスクを解決できます。最近では、LLM は自律的な Web ナビゲーションでも大きな成功を収めています。これは、コンピューターを制御したりインターネットを閲覧したりして、与えられた自然言語命令を満たす一連のコンピューター操作を実行することで、HTML の理解と複数ステップの推論を促進するエージェントの機能です。


ただし、実際の Web サイトの Web ナビゲーションには依然として次の問題があります。

(1) 事前定義された操作スペースの不足。

(2) HTML ウォッチはシミュレータよりも時間がかかります。

(3) LLM には HTML ドメインの知識がありません。

現実世界の Web サイトのオープン性と指示の複雑さを考慮すると、適切な操作スペースを事前に定義することは困難です。さらに、命令の微調整や人間のフィードバックからの強化学習によって HTML の理解と Web ナビゲーションの精度を向上できることがいくつかの研究で示唆されているにもかかわらず、最近の LLM は HTML ドキュメントの処理に常に最適な設計になっているわけではありません。ほとんどの LLM のコンテキストの長さは、現実世界の Web サイト上の HTML の平均的なマークアップと比較して短く、HTML 固有のドメイン知識は使用されません。


cbeb3fd9501d63d1a68a3b4e99be0e3f.jpeg


上記の問題に対応して、研究者らは、正規化されたネットワーク操作を組み合わせることで、ユーザーの指示に従って実際の Web サイト上のナビゲーション タスクを完了できる、LLM によって駆動されるエージェント プログラムである WebAgent を導入しました。WebAgent は、命令を正規化されたサブ命令に分割して計画を実行し、長い HTML ドキュメントをタスク関連のフラグメントに変換し、生成された Python プログラムを通じて Web サイトを操作します。研究者らは 2 つの LLM を WebAgent に結合しました。コードベースの生成用の Flan-U-PaLM と、ローカルの長い HTML ドキュメントの計画と要約用に新しく導入された事前トレーニング済み LLM である HTML-T5 です。

47c3939f0a030bb83d0479c54458e2b9.jpeg

実験では、この方法により実際の Web サイトの成功率が 50% 以上向上することが証明されており、現在 HTML-T5 は HTML ベースのタスクを解決するための最良のモデルであり、MiniWoB Web ナビゲーション ベンチマーク テストでは、その成功率が以前の最先端の方法は 14.9% 優れており、オフラインのミッション計画評価の精度も優れています。

61bbcbac84abacb76ac6b0af5b90f013.jpeg

おすすめ

転載: blog.csdn.net/specssss/article/details/132007009