「対話システム」は、実際に多くの形式に分かれています。
タスクベースの対話:
- コンプリメンタリ:所定の指示や発注書の完成に関連する顧客サービス、Q、など
- 協力:双方が会話の中で、タスクを完了するために
- 対立:双方は対話で競争している、そのような会談
社会的タイプの対話:
- チャット
- 心のカウンセリングや家庭教師
、NLGオープンの難しさを考えるとpre-neural
、多くの場合、事前に定義されてテンプレートライブラリからか答え取得するために、対話を完了するために正しい答えを。
ただ、2015年に開始し、ダイジェスト生成を探求する過程のようにseq2seq対話システム、早期の論文を以下のように、人々は方法が適用されしようとします。
- Aニューラル会話モデルVinyalsら、2015
https://arxiv.org/pdf/1506.05869.pdf - ニューラルショートテキストの会話のためにマシンを受けて、シャンら、2015 https://www.aclweb.org/anthology/P15-1152
2.1 Seq2seqベース対話システム
対話システムを構築することを標準seq2seqの直接コピーした場合、多くの問題があるだろう、我々はより重要な問題と関連ソリューションの一部をコンパイル。
2.2交渉対話
2.2.1ディールかどう対処しますか?
2017年には、ルイスのデータは、交渉セッションを設定し、このデータに焦点を当て集め、双方が対話を通じてアイテムを配布する必要があり、これらの項目は、異なるスコアを持っているが、双方のスコアが一定です。興味深いことに、彼らは唯一の自分のポイント値にどのくらいこれらの項目を知って、お互いを評価する方法を知りません。交渉の結果は、合意されたことを自分がもっと得点できるようにする必要性を必要としないだけ。
図に示すように、図に示すように、ゲームのルールは、権利データ準備プロセスを残しました。
本論文では、細部を修正するために、書き込みシンプル、フォロー相関アルゴリズムにここでは、比較の4つのモデルを提案しています:
次のように使用されるモデルの構造は次のとおりです。
使用してROLLOUTS
次のように復号化手順:
詳細は、それ==結果を見て理解していません
まず、最もエキサイティングな実験結果の一つが、初めてこの論文は、教師付き学習よりも強化され、モデルベースの学習モデルを可能にし、大きなスライスを超えます。図に示すように。
もちろん、著者は、また新しいモデル(主に利点)の長所と短所を分析しました
- ロボット補強難しい交渉にトレーニングパフォーマンスを学ぶよりも、主に対話とビューのラウンド人間ポイントの平均数のために、
Likelihhod
(旧7.2 5.3後者)モデルこのモデルは何かのために戦うより喜んであることを示すと、合意に達するために自由ではありません。もちろん、と逆の効果をもたらすために、この能力は誰もがゼロポイントを持っていないので、妥協のない相手の顔ので、人々は、その結果に応じて、崩壊を選択する方が喜んでいる、人によると、崩壊に簡単です。また、トレーニングモデルを強化学習の使用は、そのようなものと同じコマンド、すべてのラウンドの繰り返しで簡単です「私は2個のボールをしたい、あなたが他を奪う」、このLikelihood
モデルは非常に有効であるが、人々はそうではありません、このまた、改善のための将来の地域インチ
交渉プロセス、強化学習モデルのトレーニングはどのように頑固なロボットの目的を満たしていないことを次の図に示します
- モデルは嘘に学んだ、このアプローチは、交渉に非常に有効です。初めに、モデルは、項目に特に関心を示したが、最終的な結果は、彼より強力に選ばれました。たとえば、次のように:
- モデルは非常に革新的なだけでなく、より意味のある文を生成し、当然のことながら、著者は、単に学習サンプル数から逐語的なテキストを繰り返していると思われるが、また、自分の言語であってもよいです。著者はテキストで与えられた文章のようには見えません。しかし、彼は、彼らが将来的には、特定の地域でのモデルの多様性トレーニングの効果を最適化すると述べました。
- 不十分な複数の文の一貫性のパフォーマンス。明らかに言葉は、そのような(「私は同意し、」「契約」)の終わりを意味していると始めている文法的な間違いでモデルが、交渉を開始するために、次のいずれか。この動作は、人々が乾燥イライラに行って背中を持って行います。、教師研修、モデルは通常見つけ、そのような言葉の後、「私は、合意された」かもしれない一つの理由、反対派はもはや話す、彼は(..もかわいいロボット)それは交渉の進展を促進するだろうと思いました
2.2.2戦略対話
2018年、Yarats新しい交渉対話モデルを提案し、戦略の開発だけでは行っています。
このモデルでは、すべての単語utterance
対応して離散隠れ変数
これは、将来的に発生する可能性があります(たとえば、次のような会話、政策の最終的な結果として)物事を予測するために使用され、それがあります
表し
対話への影響は、それがポリシーメーカーである、あなたは異なるアルゴリズムの影響を制御するために行くことができます
。
次のような構造は次のようになります。