NLP——要約


ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入

要約タスクには 2 つのタイプがあります。

  • 1 つは、より代表的な文を抽出することです
  • 2 つ目は、段落の内容をより抽象的な言語で要約することです。

要約の目標:
ここに画像の説明を挿入

ここに画像の説明を挿入

抽出的な要約

「抽出要約」は、元の文書からいくつかの重要な文または段落を選択して要約を形成することを目的とした自動テキスト要約方法です。この要約は、元の文書の主なメッセージと意味を可能な限り保持する必要があります。「単一文書抽出要約」とは、単一文書から重要な情報を抽出して要約を生成するプロセスを意味します。

単一文書

ここに画像の説明を挿入

単一ドキュメントの抽出要約の一般的な手順は次のとおりです。

  • 前処理: これには通常、テキストのクリーニング (不要な記号やスペースなどの削除)、単語の分割、ストップ ワード (「the」、「is」など、よく使われるがあまり有益ではない単語) の削除などが含まれます。

  • 特徴の計算: 特定の特徴に基づいて文書内の各文にスコアを付けます。これらの特徴には、文の長さ、文内のキーワードの頻度、文書内の文の位置(たとえば、一般に、要約では記事の先頭と末尾の文が選択されることが望ましい場合があります。これらの位置にある文には主な情報が含まれている可能性が高いためです)、文書全体に対する文の類似性などが含まれる場合があります。

  • 文の選択: 前のステップのスコアに基づいて、最も高いスコアを持つ文が要約に含めるために選択されます。通常、しきい値を設定するか、要約の長さを制限します。

  • 要約の生成: 選択した文を元の文書に出現する順序に従って整理し、最終的な要約を形成します。

この方法はシンプルで効果的ですが、いくつかの制限もあることに注意してください。たとえば、再編成や新しい文の生成を行わずに元の文書から文を抽出するだけであるため、文間の論理的関係や一貫性が無視される場合がありますまた、元文書の文章に依存するため、元文書の品質が高くないと要約の品質も低下する可能性があります。

コンテンツの選択

ここに画像の説明を挿入
ここに画像の説明を挿入

  • 一般的に使用されるunsupervised learning方法
  • 目標は、重要な文または顕著な文を見つけることです。

TFIDF法

ここに画像の説明を挿入

対数尤度比 対数尤度比法

ここに画像の説明を挿入
このアプローチでは、統計分析を使用して、どの文またはフレーズに元の文書の重要な内容が含まれる可能性が最も高いかを判断しようとします。

対数尤度比は、2 つの確率モデルの相対的な利点を示す尺度であり、より具体的には、より複雑なモデル (通常はより多くのパラメーターを含む) が、より単純なモデル (通常はより少ないパラメーターを含む) で観測データにどの程度適合するかを比較します。この場合、対数尤度比を使用して、文またはフレーズに文書全体に関連する重要な情報が含まれているかどうかを測定できます。

この方法の基本的な考え方は、特定の文または語句について、元の文書での出現頻度がより大きな背景コーパスでの出現頻度よりもはるかに高い場合、その文または語句には元の文書の重要な情報が含まれている可能性が高いということですしたがって、対数尤度比を計算することで各文または語句の重要性を評価し、最も高いスコアを持つ文または語句を要約の一部として選択できます。

この方法の利点は、一連のキーワードを手動で設定することなく、重要な情報を含む文や語句を自動的に選択できることです。ただし、文やフレーズの意味情報や文脈情報を無視して、頻度情報に依存しすぎる可能性があるなど、いくつかの制限もありますまた、一部の短いドキュメントや非常に具体的なドキュメントの場合、このアプローチでは良い結果が得られない可能性があります。
ここに画像の説明を挿入

文中心性法 文中心性法

ここに画像の説明を挿入
文の中心性とは、文書内の文の重要性の尺度を指します。文章の中心性の評価は、自動テキスト要約や情報抽出などのタスクでよく使用されます。

RST 解析

ここに画像の説明を挿入
ここに画像の説明を挿入
修辞構造理論 (RST、修辞構造理論) は、テキストの構造を記述するための理論的枠組みです。この枠組みでは、テキストは単なる一連の文ではなく、一連の修辞関係 (修辞的関係) によって接続されています。これらの修辞関係には、因果関係、対比関係、説明関係などが含まれ、テキスト内の文または文グループが相互にどのように関係し、統一された首尾一貫した情報構造を形成するかを説明します。

RST 解析 (RST Parsing) とは、テキストの RST 分析を指し、テキスト内の修辞関係を特定し、RST ツリー (RST Tree) と呼ばれる構造表現を生成します。

テキストの要約 (Summarization) では、RST 解析はテキストの深い構造と論理的関係を理解するのに役立ち、それによってより高品質な要約を生成できます。たとえば、RST ツリー内でより高いレベルにある (つまり、より重要な) 文や、重要な修辞関係に関与している文に優先順位を付けることができます。また、RST ツリーに従って要約の一貫性と論理性を確保することもでき、たとえば、結果 (Result) 文を選択した場合、それに関連する理由 (Reason) 文も選択する必要がある場合があります。

ここに画像の説明を挿入

マルチドキュメント

  • マルチファイルの状況は、単一ファイルの状況と非常によく似ていますが、繰り返されたり非常に類似した複数の文が存在する可能性があるため、情報の冗長性が存在する可能性がある点が異なります。
    ここに画像の説明を挿入

コンテンツの選択

  • tfidf と対数尤度比は引き続き使用できます
  • しかし、それらの冗長な文を無視することを選択することは
    ここに画像の説明を挿入

最大周辺関連性 最大周辺関連性

ここに画像の説明を挿入
最大周辺関連性 (MMR)は、情報の関連性と多様性を比較検討するために、情報検索やテキスト要約などのタスクで使用される戦略です。基本的な考え方は、クエリまたはトピックに最も関連性があるが、選択したコンテンツとは最も類似していない項目を選択することです。

テキストの要約のコンテキストでは、MMR はより良い要約を生成するのに役立ちます。たとえば、抽出的要約では、MMR を使用して文を選択し、選択した文が文書のトピックに関連しているだけでなく、可能な限り異なる情報も含まれていることを確認できます。このようにして、要約文内の繰り返しまたは冗長なコンテンツを回避できるため、要約文の情報密度と読書体験が向上します。

情報 注文情報 注文

  • 時間順に並べ替える
  • 結束度で並べ替える
    ここに画像の説明を挿入

文の実現

ここに画像の説明を挿入
「文の実現」(文の実現)とは、一般に、自然言語生成(NLG)において意味表現または意味フレームを完全で文法的に正しい文に変換するプロセスを指します。

これには通常、次の手順が含まれます。

  • 語彙の選択: 意味表現に従って意味を表現するのに適切な単語を選択します。たとえば、意味表現が「移動」の場合、「移動」、「歩く」、「走る」などの単語を選択できます。
  • 語順の決定:言語ごとに語順のルールが異なり、語順は文法ルールに従って決定する必要があります。
  • 形態形成: 一部の言語では、文内の役割に応じて語形が変化します。たとえば、英語では動詞の時制が文脈に応じて変化する必要がある場合があります。
  • 修飾子の追加: 文法的に正しい文を生成するには、冠詞、前置詞、接続詞などの追加の単語を追加する必要がある場合があります。

抽象的な要約

単一ドキュメント (深層学習モデル!)

ここに画像の説明を挿入

エンコーダ-デコーダモデル

ここに画像の説明を挿入

  • これらのモデルをトレーニングするために、さまざまなタイプのデータを使用します。そのうちの 1 つは、記事の最初の文をドキュメントとして使用し、要約が記事のタイトルになることです。
    ここに画像の説明を挿入
    ここに画像の説明を挿入

  • この方法で生成される結果の例は次のとおりです。

    • Gはgroundtruth
    • Aが生成されるsummary
  • 他にもデータセット形式があります。
    ここに画像の説明を挿入

改善点

ここに画像の説明を挿入

アテンション付きエンコーダ/デコーダ

それがどのように機能するかを簡単に説明すると、次のようになります。

  • エンコーダ: エンコーダのタスクは、入力ソース テキスト (記事など) を、テキストの意味情報をキャプチャする一連のベクトル表現に変換することです。一般的なエンコーダはリカレント ニューラル ネットワーク (RNN) または Transformer エンコーダです。

  • アテンション メカニズム: アテンション メカニズムは、エンコードおよびデコードのプロセスにおいて重要な役割を果たします。その基本的な考え方は、各出力単語を生成するときに、デコーダーの現在の状態だけでなく、ソース テキスト内のすべての単語も考慮し、異なる単語に異なる重みを割り当てることです。これらの重みは「アテンション」と呼ばれ、現在の単語を生成するときにデコーダがソース テキスト内の各単語にどの程度の注意を払うかを示します。アテンション メカニズムを通じて、デコーダはソース テキストの情報をより適切に利用できるため、より正確な要約を生成できます。

  • デコーダ: デコーダのタスクは、エンコーダの出力とアテンションの重みに基づいてターゲット テキスト (要約など) を生成することです。各単語を生成するとき、デコーダは以前に生成されたすべての単語と注意の重みを参照します。一般的なデコーダはリカレント ニューラル ネットワーク (RNN) または Transformer デコーダです。

コピー機構に基づく方法

ここに画像の説明を挿入

上に示したように、具体的には次のとおりです。

  • 上記の方法は、copyデコード側で直接デコードを回避するメカニズムを組み合わせていますが、デコードの各タイムステップでエンコード側の情報を考慮します。
  • Bi-lstm上図ではasが使用されencoderdecoder端末は通常の として使用されますlstm
  • 現在のdecoderタイム ステップがti t_iであるとします。t私は終端で のベクトルと各タイムステップのdecoderベクトルを用いて類似度を計算し、 を渡した後にそれを求め、hiddenこれによりベクトルに重み付けをして加算すると現在のタイムステップti t_iが得られます。encoderhiddensoftmaxattention distributiondistributionencodert私はcontext vector
  • 次に、デコード側で類似度を計算し、P gen P_{gen} を取得しvectorますcontext vectorPゲン_ _このスカラー。
  • 次に、オリジナルattention distributionti t_iに比例します。t私はタイム ステップdecoderの状態hiddenが追加されて、デコードに使用される最終ワードが取得され、現在のタイム ステップでFinal Distribution最も生成されたワードがそこから選択されます。argmax
  • 原文はの部分でattention distributionありcopy、原文の情報をそのまま使用することを意味します。
    ここに画像の説明を挿入
    ここに画像の説明を挿入

トランスベース

ここに画像の説明を挿入

  • トランスフォーマーのエンコード側にすぎないためBERT、この種のタスクは不可能です
  • このようなタスクにはencoder+decoderまたはのみが必要ですdecoder

おすすめ

転載: blog.csdn.net/qq_42902997/article/details/131219330
おすすめ