【スタンフォード博士論文】ヒューマン・コンピュータ・インタラクションのための言語モデルの設計と評価

cfd97dfd80d9a7093c6600699b116077.png

来源:专知
本文为论文介绍,建议阅读5分钟
本论文专注于设计和评估用于人机交互的LMs。

72e2ab1493f3bb503cfb7c7798cdc7f6.png

https://searchworks.stanford.edu/view/14784050

言語モデル (LM) は現実世界のアプリケーション (Web 検索、テキストのオートコンプリート、コンテンツ生成など) に広く普及していますが、ほとんどの LM は人間のユーザーによる LM との対話用に最適化されておらず、この点で評価されていません。 。このギャップに対処するために、この文書では人間とコンピューターの相互作用のための LM の設計と評価に焦点を当てます。まず、著者が改訂プロセスで遭遇する特定のニーズ、つまり周囲のコンテキストを考慮したコンテンツを考え出すことに焦点を当てます。このニーズをサポートするために、事前トレーニングされた LM が空白埋めタスクを完了できるようにするトレーニング方法を提案します。これは、人間とコンピューターの対話をより容易にするのに役立ちます。次に、人間とコンピューターの相互作用の痕跡を捕捉するためのプラットフォームである CoAuthor を構築します。CoAuthor と協力して、大規模なインタラクション データセットを収集し、これらのトレースを分析する方法を示し、言語、思考開発、コラボレーションにおける LM の能力について独自の洞察を提供します。最後に、新しい評価フレームワークである人工知能言語対話評価 (HALIE) を提案します。これは、対話型システムのコンポーネントと、記述タスクを超えた人間とコンピューターの対話タスクのメトリクスを定義します。最後に、この分野における未解決の課題と将来の方向性について説明します。

急速に変化する環境の中で論文を書くのは特別な努力です。自然言語処理 (NLP) の分野は、絶え間ない変化と革新の時代を迎えています。この論文は、この分野のスナップショットを捉え、この変化する状況から時代を超越した品質、つまり言語モデル (LM) の設計と評価を調べることを目的としています。私が博士課程の研究を始めて以来、LM は控えめに言っても大きく成長しました。2017 年、LM を構築する最も一般的な方法は、最初のプロジェクトで実証したように、特定のタスクを選択し、カスタム データセットを収集し、カスタム モデルを設計し、カスタム モデルを最初からトレーニングすることです (Lee et al., 2019) )。2023 年までに、NLP やプログラミングの事前知識がなくても、API やシンプルなユーザー インターフェイスを通じて事前トレーニングされた LM に指示を与えることで、LM を迅速に「構築」し、対話して幅広いタスクを実行できるようになるでしょう。プロジェクトで実証されました (Lee et al., 2022a,b, Bommasani et al., 2023)。

しかし、最近の言語モデル (LM) の前例のない機能と広範な応用にもかかわらず (Radford et al., 2019; Brown et al., 2020; Rae et al., 2021; Zhang et al., 2022; Chowdhery et al., 2022; Lieber et al., 2021; OpenAI, 2022, 2023) しかし、NLP における既存の LM 研究のほとんどは主に非対話型シナリオに焦点を当てています: 入力テキストが与えられると、モデルは出力テキストを生成し、テキストの品質のみに焦点を当てています。出力。このような場合、人間の関与は無視されるか、モデル出力の人による評価 (Ribeiro et al., 2020; Kiela et al., 2021) や対話のような厳密な相互作用 (Paranjape et al. et) などの特定の目的や形式に限定されます。ら、2020; Thoppilan ら、2022; Shuster ら、2022)。多様なタスクを組み込んだベンチマーク (Gehrmann et al., 2021; Hendrycks et al., 2021; Liang et al., 2022) を含め、ほぼすべてのベンチマークは、この非対話型の見解を採用しています。対照的に、私の仕事の中心的なテーマは、インタラクションを LM の設計と評価の最前線に置くことです。質問応答タスクを例に挙げると、単独で機能するモデルを構築する (つまり、事前定義された質問をモデル入力として受け取り、モデルの出力を静的ベンチマークの事前定義された回答と比較する) のではなく、対話型のシナリオに重点を置きます。このシナリオでは、ユーザーは、質問の作成、モデルの質問 (またはクエリ)、モデルの出力の解釈と処理、質問を出力に合わせて調整し、モデルについて学習するにつれて徐々に質問を適応させるという反復プロセスに取り組みます。ストーリー執筆に関する私の仕事も同様の哲学に従っています (Lee et al., 2022a)。私が開発しようとしている LM は、それ自体でストーリー全体を生成できるモデル (図 1.1a) ではなく、おそらくストーリーの一部を生成することによって、執筆プロセスを強化およびサポートできるモデル (図 1.1b) です。ユーザーが選択して調整できるストーリー。LM のこのインタラクティブな使用は、Engelbart (1962)、Skagestad (1993、

ヒューマン コンピューター インタラクション (HCI) コミュニティにとって、最近の言語モデル (LM) は、新しいインタラクション デザインの刺激的な機会を提供します。新しい自然言語インタラクションのラピッドプロトタイピングと設計に LM を利用した多くのアプリケーションやプロトタイプが見られ始めています (Calderwood et al., 2020; Buschek et al., 2021; Wang et al., 2021; Chen et al., 2021; Chakrabartyら、2022; Ippolito ら、2022; Valencia ら、2023)。LM の生成能力を研究するための、HCI における最も伝統的なアプローチは、ユーザーを招待してインタビューする、状況に応じた調査です (Calderwood et al., 2020; Clark et al., 2018b; Gero and Chilton, 2019; Wu et al., 2020, 2022;Yang et al. People、2019a)。ただし、コンテキスト調査は時間とリソースを大量に消費する性質があるため、LM 機能の主観的な解釈を取得する場合にはより効果的ですが、多様なコンテキストをカバーする場合にはあまり効果的ではありません。

私の研究の中心となるのは、人間のユーザーと LM の間の対話中に展開される一連のイベントである対話トレースです (図 1.1b)。これらのトレースには、キーの押下、カーソルの動き、システム クエリ、システム提案によるナビゲーションなどのさまざまな動作が含まれます。これらには豊富な情報が含まれており、HCI のダイナミクスを把握し、対話シナリオにおける LM の機能についての洞察を提供します。たとえば、ユーザーのクエリの頻度を調べることで、ユーザーが LM にどの程度依存しているか、LM の応答がどの程度役立つかを定量化できます。さらに、インタラクショントレースにより、ユーザーが LM とインタラクションするときに採用する戦略や、インタラクションの時間的特性を理解することもできます。最後に重要なことですが、インタラクション トレースを利用すると、設計者が人間とマシンのインタラクションを一度に大規模にキャプチャし、分析のために複数回再利用および再生できるため、さまざまなコンテキストをカバーできるようになります。

これらの対話トレースを活用することで、NLP および HCI コミュニティは、LM の開発と展開に対して、よりターゲットを絞ったユーザー中心のアプローチを考案できると私は信じています。

この文書には次の章が含まれています。

• 第 2 章では、言語モデル (LM)、HCI、および HCI の設計空間に関する背景を文書で提供することにより、後続の章の基礎的な理解を構築します。

• 第 3 章では、特定のインタラクティブなコンテキスト、つまり執筆のための改訂プロセスを詳しく掘り下げ、ほとんどの LM が直接対処できないユーザーのニーズに焦点を当てます。具体的には、LM がギャップを埋める (つまり、テキストを埋める) ことを可能にするトレーニング方法を提案します。

• 第 4 章では、共同執筆における人間とコンピューターの対話をキャプチャして分析するために設計されたプラットフォーム、CoAuthor を紹介します。このプラットフォームにより、インタラクション トレースの収集が容易になり、豊富で再現可能なデータセットが得られます。このデータセットを使用して、これらの相互作用の追跡を調べることで、言語、創造性、コラボレーションなどの分野における LM の能力について貴重な洞察がどのように得られるかを示します。

• 第 5 章では、新しい評価フレームワークである人工知能言語ベースのインタラクション評価 (HALIE) を提案します。これは、インタラクティブ システムの基本コンポーネントを定義し、関連タスクの書き込みパフォーマンスを超えて、人間とコンピュータのインタラクションを評価するための新しい評価指標を導入します。このフレームワークはより広範囲のインタラクション シナリオをカバーしており、さまざまな状況における LM のパフォーマンスを完全に理解して評価することが可能になります。

• 第 6 章では、さらなる研究とイノベーションを促進するためのHCI 分野における未解決の課題について説明します。

論文の一部は学会で発表されています。第 3 章は、2020 年の計算言語学協会 (ACL) で発表された Donahue et al. (2020) の研究に基づいています。第 4 章は、2022 年のヒューマン コンピュータ インタラクション システム会議 (CHI) で発表される Lee et al. (2022a) の資料に基づいています。第 5 章は Lee et al. (2022b) による研究に基づいており、現在検討中です。

9e765062b2fd54a8c670830a45a3ca68.png

7b29bce4421648e21c3098082b1cb153.png

60682c26367d15dfac8542d9690b5e8f.png

f278ac418dc6639a4b3c346fafc4ed86.png

おすすめ

転載: blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/131989707