最新の対話状態追跡 (DST) モデルを見てみましょう

最新の対話状態追跡 (DST) モデルを見てみましょう

AIに関する議論

タスクベースの対話モデルは、エンドツーエンドとパイプラインの 2 つの構造に分かれていますエンドツーエンド構造は主に seq2seq モデルを使用します。パイプライン構造は、音声認識 (ASR)、自然言語理解 (NLU)、ダイアログ マネージャー (DM)、自然言語生成 (NLG)、および音声合成 (TTS) という複数のモジュールを定義します。NLU→DM→NLG は、パイプライン対話構造全体の最も重要な部分です。簡単に言うと、NLU はユーザー入力を理解してから DM モジュールに入ります。DM モジュールはシステムのステータスを追跡し、対話戦略を学習し、システムの次のアクションを制御します。一方、NLG は適切な対話フィードバックを生成して、ユーザーに適切なフィードバックを生成する責任があります。システムが実行するアクションに基づくシステム。

Pipeline 構造の DM モジュールはDST と DPLにさらに分割されます。DST (対話状態追跡) は、対話システムの状態 (各スロットに対応する値と対応する確率) を維持し、現在の対話ラウンドに従って対話状態を更新する責任があります。対話ポリシー DPL は、 DST によって出力された現在のシステム状態に従ってどのスロットに問い合わせる必要があるかを判断し、次のシステム アクションを生成します。以下の図は DST の具体例を示しており、読者が直観的に理解できるようにしています。

以下に、対話状態追跡に関する 3 つの関連論文を紹介します。これらは、現在主流の DST モデルを理解するために、検索、生成、生成と検索の組み合わせとして要約できます。

01 検索式

SUMBT: 普遍的でスケーラブルな信念追跡のためのスロット発話マッチング

論文アドレス:  https://arxiv.org/abs/1907.07421

従来の方法には次の 2 つの問題があります。

1) ドメインとスロットは別々にモデル化されます。

2) 実際のシーンに新しい値が現れると、予測することが困難です。この論文では、効率的で移植可能な検索モデルを確立するために、ドメインとスロットが一緒にコード化され、コンテキストとスロット値のペアの間の本質的な関係が bert を通じて学習されます。

具体的なアルゴリズムは次のとおりです。

1) Bert は、コンテキスト、ドメインスロット、およびそれに対応するすべての値のコレクションをそれぞれエンコードし、エンコードによって出力された [CLS] の対応する位置を隠れ層表現として取得します。

2) d は、ドメインスロットの対応する値が現在の値であるかどうかを判断するための距離測定指標として使用され、本論文では、ユークリッド距離と負のコサイン距離を計算に使用します。

実験結果は次のとおりです。

02 生成的

メモリを選択的に上書きすることによる効率的な対話状態追跡

論文アドレス:  https://arxiv.org/abs/1911.03906

従来の方法では、DST 予測の各ラウンドで、対話内に出現したすべての文を再入力する必要があり、非効率でした。この論文では、状態追跡テーブルを維持し、選択的書き換えメカニズムを提案します。アルゴリズムのプロセスは次のように要約できます。

1) 各スロットと値のペアの状態操作を予測します。

2) 更新する必要があるスロット値ペアを書き換えます。

ステート操作(状態操作)はCARRYOVER、DELETE、DONTCARE、UPDATEの4つに分類されます。CARRYOVER は、スロット値ペアが変更されないことを意味し、残りの 3 つの操作は、NULL としての削除、スロット値ペアの言及なし、およびスロット値ペアの更新を表します。モデルは、最終ラウンドの回答、現在の質問、および最終ラウンドの対話ステータスを入力し、スロットと値のペアの状態操作が UPDATE の場合にのみ、モデルは対応する更新値を生成します

具体的なアルゴリズムは次のとおりです。

1) 状態操作アルゴリズム:

情報は BERT によってエンコードされ、出力の最初の桁はドメイン情報として表現され、その後に各スロット値ペアの状態動作予測値が続きます。

2) スロット値ペア生成アルゴリズム:

実験結果は次のとおりです。

03 検索生成組み合わせ

検索または分類しますか? マルチドメイン ダイアログ状態追跡におけるスロット値予測の二重戦略

論文アドレス:  https://arxiv.org/abs/1910.03544

現在、DST は取得型(ピックリストベース)と生成型(スパンベース)の 2 つに大別されます。

この検索方法では、考えられるすべてのスロット値候補のセットを事前に決定し、分類方法を使用してスロットに対応する値を決定します。生成的手法では、ステートメント内の値は、コンテキストの詳細なモデリングと分析を通じて見つけられます。どちらの方法にも独自の長所と短所があり、検索方法は効率的でエラーがありませんが、実際のアプリケーションではスロット値の候補の完全なセットを構築するのが困難です。生成手法は柔軟で候補セットに依存しませんが、特定の値(時間や場所など)を抽出するのは困難です。

この記事では、2 つの方法を組み合わせて、すべてのスロットを 2 つのカテゴリに分けます。ピックリスト ベースのスロットの場合は、上記の SUMBT と同様に、事前定義されたオントロジー ベースのアプローチを使用します。スパン ベースのスロットの場合は、スパン抽出ベースの方法を使用してスロットを見つけます。コンテキスト内の対応する値の開始位置と終了位置。

具体的なアルゴリズムは次のとおりです。

1) Bert エンコード入力コンテキストとドメインスロット:

2) スロット ゲート分類アルゴリズムを使用して、ドメイン スロットを更新する必要があるかどうかを判断します。(ドメインロストは、すべての状態値、なし、ドントケア、予測に対応する可能性があります):

3) スパンベースのスロットの場合:

4) 選択リストベースのスロットの場合:

トレーニング中に、 2)、3)、4) の損失関数をモデル損失として追加します。

この論文では、実験部分で2 種類のスロットを区別する方法について詳しく説明します。たとえば、Threshold-10 は、候補値リストの長さが 10 未満の場合は選択リスト ベースのスロットに分類され、それ以外の場合はスパン ベースのスロットに分類されることを意味しますただし、実験では、人工ヒューリスティックに基づいて区別する場合、モデルのパフォーマンスが向上することが示されています。人工ヒューリスティック手法とは、時間と数値の 2 つのスロットをスパンベースのスロットに分割することを指します。

実験結果は次のとおりです。


「あ

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/131736069