序文
- この記事は、昨日見た
ACL 2023
3 つのマルチラウンド対話記事を共有したものです - これら 3 つのジョブは、出力を制御するための追加の属性に基づいており、評価の側面は類似しているため、参照として使用できます。
方法
これらの記事は一般的なタスクを対象としたものではなく、特定のタスクを実行するために追加情報を使用する傾向があります。
-
[1] 属性プロンプトはタスク レベル (つまり、ユーザーのペルソナ/対話の意図) ではなくインスタンス レベルで生成されるべきであることが提案されています。
- 制御属性を入力として受け取る軽量のプロンプト モジュールをトレーニングします (浅いバージョンと深いバージョン)
- 対話タスク用に静的ソフト トークンをトレーニングする代わりに
-
[2] 推論フェーズでは、明示的なペルソナ記述に依存せず、対話履歴予測ペルソナ情報に基づいて対話エージェントをカスタマイズする
- ペルソナ検出モデルには 2 つの方法が提案されています。
- モデルの対話履歴を考慮すると、トレーニング出力ベクトルはペルソナ ベクトル (ペルソナの説明を入力することでエンコードされる) に似ています。
- モデルの対話履歴を考慮して、ペルソナの説明を直接生成するようにモデルをトレーニングします。
- マルチタスクトレーニング: ペルソナ検出モデルと対話コンテキストエンコーダーの共同トレーニング
- 一般的な対話情報エンコーダとみなすことができる第 1 層のパラメータを共有します
- ペルソナ検出モデルと対話モデルをトレーニングして、グラウンド トゥルース応答の確率を最大化します。
- ペルソナ検出モデルには 2 つの方法が提案されています。
-
[3] 特定の文法事項(現在完了時制、接続法、連体詞節など)を含む応答を生成し、DialoGPT上で強化学習法とGPT-3ベースのインコンテキスト学習法を利用してみた。どちらもできることがわかりました
データセットと評価
-
【1】
Dailydialog
ラベル管理用 及びFoCus
文書管理用-
Dailydialog
:各文章には対話行為がマークされています(写真にマークされているのは感情、行為は別のファイルにあります)、合計4種類(発言、質問、指示、約束) -
FoCus
: ユーザーのペルソナが含まれており、対話エージェントの構築を望んでいます。 -
応答を評価する
- の制御性
customizing responses
- n-gram ベース: BLEU、NIST、ROUGE-L、METEOR
fluency
およびadequacy
- 個別の N グラム: の距離とエントロピー
diversity
- ~に対する人道的な評価
consistency between dialogue context and response and attribute controllability
- の制御性
-
-
【2】
PersonaChat
とDailydialog
-
PersonaChat
(arxiv 2018) -
一般化を検証するには、
Dailydialog
次のテストを行ってください。 -
評価する:
- のための人々
fluency
- の距離
diversity
- Pカバー用
covering persona information
- 人間による評価(アノテーター20名)
- 等
- のための人々
-
-
【3】
Dailydilog
(SCoRE
分類器を訓練する)- 評価する:
- の距離
diversity
- のGレーション
containing the item
- 目標
fluency
- の距離
- 評価する: