論文は-StrategiesForStructuringStroryGenerationを読みます

豊富な語彙によって生成された結果を最適化するために、この記事の著者。著者は、それぞれの変更の少しを行っている、三つの部分に、プロセス分割を構築します。彼らは物語を書く方法を見てください。

まず、SRL構造化データに話を変換するツール。ここで、同じエンティティが、上記の図のように、プレースホルダで表され、ent0は、私ですENT1足が、ENT1は頭です。(実際には、ここで私はかなりENT2のフォローアップが内に充填されているので、理解していない我的头私に属している単語があると、ENT1そこ锋利的爪子他们「I」は終わりである、または他のエンティティにそれをするエンティティの一部であるので、それは、代名詞の爪のですか?)

そして、物語関連企業は、プレースホルダに置き換えられます、

最後に、空白で埋めます。

データ

プロンプト書かれた言葉は、データセットを使用して、男でWRITINGPROMPTS、734個の単語について、それぞれの物語を。実験に使用した単語の物語番号は19025単語辞書、物語辞書サイズ104960のサイズことを示唆し、1000未満に制限されています。

まず、データの物語の構造

このステップでは、テキスト入力および出力パラメータとシーケンス述語は本質的には「誰に何をした者」を決定するためにここで、「」とに応じて、前処理データである「ここで。」

これは、シーケンスのラベルのように感じています。事前研修モデルを通じて文の述語とパラメータをマーク。しかしのために、再びここで、マルチヘッドのデコーダを向上注目動詞生成。その結果、動詞の広い範囲を生成するだけでなく、文章中の単語を繰り返し同じ問題を避けるために。

第二に、ソリッドモデリング

名前のように、名前などの低単語頻度語は、言語モデル生成のワードサイズにカウントしたいことは困難であるが、我々は非常に良いだろう単語の物理的な大きさから、この問題を解決する必要があります。スロットに当社の代表取締役社長として理解することができ、正確で豊富なの両方を記入し、これらのスロットを埋めるための方法を考えます。

この問題は、スロットを引っ張り、スロットを埋め、2つのステップに分割されています。

2.1プルスロット

同様の用途読解それを行うための方法を、同じプレースホルダを持つ単一のエンティティの物語が表現します。

ここでは2つの特定の言及は、以下のとおりです。

  1. 使用NERモデルの識別名、地名、組織名は、同じと同じ名前はプレースホルダーを表します。

  2. 複数の異なる文字列が同一のエンティティを表す場合、交換上記スロットNERのために使用することができません。このケースでは、いずれかを使用します認識モデル生成手段に基づいて、このように同じセマンティックエンティティを表し、その後、プレースホルダに置き換えられますクラスタリングを。しかし、この方法では、エンティティは(、物語は一度登場している)だけで1つの表現であるならば、これはエンティティ関係を参照していないことに留意すべきである使用して表現する唯一のプレースホルダユニークである必要があります。

2.2充填スロット

どのようにそれを行う別の方法で表現同じエンティティは、「I」、「私」または「その女の子は、」ありますか?ここでは、再びモデルに使用され、それがここでいうsub-word seq2seq我々は、テキストのこれらの表現を生成するseq2seqモデルを使用している、とデコーダが追加したので、pointer-copy新しい代名詞、または使用のエンティティを生成するメカニズム、前名前。

ここで、私はおそらくポインタコピーのメカニズムを理解するが、実際に次のように読み込み、元のテキストを、理解していません。

エンティティ参照を生成するには、デコーダは、いずれかの新しい抽象エンティティトークンを生成したり、一貫性のある使用するモデルを奨励し、既に生成された抽象エンティティトークン、コピーすることもできます
エンティティの命名を。

著者はまた、モデル全体の前にいくつかの入力を追加しました。これは次のように読み取ります。

周りの袋のワードコンテキストウィンドウ
ローカル可能特定のエンティティの言及、
エンティティがなければならない場合には、文脈が決定する
名前、代名詞又は公称参照。

同じのために以前に生成された参照
エンティティプレースホルダ。

次の図は、私の理解のモデル構造であり、以下のセクションでは、チャート上のオリジナルポインタ生成モデルである、私は理解して追加の入力情報です。

ここに画像を挿入説明

2.2.1単語レベル

私たちは、と言うために使用されるsub-word seq2seq、その後、何sub-wordそれ?アイデアはとてもでの見てみましょう、機械翻訳の研究からも、もともとword-levelモデルを変換する方法。

ここで私はへの参照を作ったこのブログのために、言った、word-level翻訳モデル、しばしば使用back-off dictionaryに対処するためにOOV、このような意志などの単語、sourceおよびtarget二十から二対応、使用OOV、このような結果が翻訳に表示される示すためにOOV使用する場合source、対応するtarget代わりに。

しかし、これに基づいていないためにsource-target、常に一対一の単語の前提ので、言語間の形態学的合成の異なる程度の、この仮定は、多くの場合、真実ではありません。第二にword-level、翻訳モデルは、単語モデルを生成することはできません(ない語彙に見ていませんこの場合には、直接コピー用紙がそこから作られている、)中間unknown言葉にtargetして言葉が、この治療戦略は、唯一のいくつかに限定されているエンティティの名前計算時間とリソースを節約するために、同時に、語彙サイズは一般的に30Kに制限され、クラス語彙は以下のような語彙に同様の意味の言葉、多くの場合-50kの間で、その単語の表スペースは、より高価であり、like,liked,liking類似した単語や他の形態は、語彙、直感的な感覚いくつかの廃棄物の上に置きました。

2.2.2サブワード

必ずしもではない実際の翻訳にあるwordワード単位未満だけ基本単位として翻訳されsub-word、例えば変換する、化合物語(類似語、接頭語および等ラン、runer、実行、同じ形態を、サフィックス合成による(実行およびER合成)翻訳)、同語源と借用語(サブワード音声とフォームの変換によって)、科学者が書いた、集中データ解析ドイツ、100珍しい言葉(ない5000の最も頻繁から単語)、言葉のほとんどは小さなサブワード単位で変換することができます。

どのように、そして、右の単語にカットしますsub-wordそれ?紙は使用提案Byte pair encoding(BPE)文字を分割する最初、圧縮アルゴリズムを、次にマージ。それは、最も頻繁に発生し続けること、であるbi-gramことは、これまで語彙サイズに達するまで体操を行う合併。周波数合併のこの種は、INGの、 'ER「として、より多くの常識に沿ったものである ED」 これはより意味の接尾辞、 『E』及びR 『』は、同じ時間以上でなければならない頻度を出現において、 『INGの』と" 「真実に似編。

機械翻訳モデルは、通常、注目のメカニズムを使用しword-levelたモデルのみを計算することができ、モデル在word注意がレベルで、我々は注意のすべてのステップがなるそのモデルが異なる学習に配置することを願ってsub-wordそう明らかに、上のより意味そして、効率。

2.2.3文字レベル

得られた全ての文字の確率分布に応じて結果出力seq2seqモデルである文字サイズ、。一般語彙とchar型のインデックスインデックスをマッピングするために辞書を使用します

ベースライン

このモデルの作者と融合の2018年モデルは、(実際には、おそらくこのモデルは作者のある)と比較して、他の実験を行いました。

  • 要約生成:提案された新しいベースラインは、あること、言葉の要約を生成するためのプロンプトに従い、その後のストーリーに基づいて要約を生成します。
  • キーワードの選択:プロンプトの単語に基づいてキーワードを生成して、キーワードに基づいて物語を構築します。
  • 文圧縮は:圧縮は、文の単語を実行するように求められ、その後、圧縮された文に基づいて物語を生成します。

第三に、評価方法

3.1自動評価方法

解体方法の問題で見てみましょうです。我々はよストーリー バツ バツ 、より抽象的な表現に変換され、 から から 、その目的関数は次のようになります。

L = - ログ Σ から P バツ | から P から \ mathcal {L} = - \ \ sum_ {Z} P(x | z)のログP(z)を

しかし、用 から から marginalization私たちはプレースホルダで表され、すべてのエンティティを置く場合は特に、操作が難しいです。そこでここでは、事後構成することによって決定deterministic posterior上側の機能の最適化の損失の上限を。

から * = 引数 max z p ( z x ) L log p ( x z ) log p ( z ) \開始{整列} Z ^ {*}&= \のarg \最大_ {Z} P(Z | X)\\ \ mathcal {L}&\ leq- \左ログP \(X | Z ^ {*} \右) - 左\ログP \(Z ^ {*} \右)\端{整列}

このアプローチは、モデルを可能に p ( z ( ) ) P(Z ^(*)) p ( x z ) P(X | Z ^ {*}) 分離し、簡単にトレーニングすることができます。

次のように比較結果を使用すると、次のとおりです。

彼は数の構造化フォーマットを利用していますので、より良い要約、キーワードや文章の圧縮を生成するよりも簡単示す値のモデルログ構造SRLの最小損失を発生させて見ることができます。

そしてオリジナルストーリー、それを生成する方法の話に比べて?私たちは、LongestCommonSubsequence(LCS)主に、LSCと平均LSCまで測定します。LSC高い値原文のより多くの証拠コピー、生成量が少ないです。次の図は、より良い生成するモデルの能力を示しています。

3.2手動評価

ここで、プロンプトワードで同じ結果を生成する(図中上部)融合モデル2018コントラスト、このモデル(図は、以下の部分を下げます)。これは(唯一の物語のためではなく、プロンプト単語に)記事より良いマーク人によって決定されます。

公開された120元の記事 ウォン称賛35 ビュー170 000 +

おすすめ

転載: blog.csdn.net/u012328476/article/details/104229923