BERT-PGNモデルに基づく中国ニューステキストの自動要約生成 - テキスト要約生成(論文朗読)

BERT-PGNモデルに基づく中国語ニューステキストの要約自動生成 (2020.07.08)

まとめ:

  • 自動テキスト要約タスクの生成要約モデルが文の文脈を完全に理解しておらず、生成されたコンテンツが繰り返されるという問題を解決するために、BERTとポインタに基づいて中国語ニューステキストの生成要約モデル-BERTを提案しました。生成ネットワーク (PGN) - ポインタ生成ネットワーク (BERTPGN)。まず、多次元の意味論的特徴と組み合わせた BERT の事前トレーニング済み言語モデルを使用して単語ベクトルを取得し、よりきめの細かいテキスト コンテキスト表現を取得します。次に、PGN モデルを使用して語彙または元のテキストから単語を抽出し、最後に、カバレッジ メカニズムを使用して重複コンテンツの生成を減らし、最終的な概要結果を取得します。 2017 CCF International Natural Language Processing and Chinese Computing Conference (NLPCC2017) の単一ドキュメント中国語ニュース要約評価データセットの実験結果は、PGN や注意メカニズムを備えた長期短期記憶ニューラル ネットワーク (LSTM-) などのモデルに匹敵することを示しています。多次元の意味論的特徴を組み合わせた BERT-PGN モデルと比較して、要約の元のテキストはより完全に理解され、生成される要約コンテンツはより豊富になり、繰り返しおよび冗長なコンテンツの生成が包括的かつ効果的に削減されます。 Rouge-2 指標と Rouge-4 指標はそれぞれ 1.5% と 1.2% に改善されました。

0 まえがき

  • 近年のインターネット産業の急速な発展に伴い、日常生活に数多くのニュースサイトやモバイルニュースソフトが登場し、ニュースサイトやモバイルソフトを通じて最新情報をいち早く入手するユーザーが増えています。中国インターネット網情報センター(CNNIC)の第42次発展統計報告によると、2018年6月までに中国の携帯電話ユーザー数は7億8,800万人に達し、インターネットにアクセスするネットユーザーの割合も増加し、98.3%に達した。携帯電話経由。ネチズンの数が増加するにつれて、ニュースメディアのオンラインプラットフォームの利用率は増加し続けており、ネチズンがToutiaoなどのニュースメディアを利用する頻度も増加し続けています。今日のペースの速い生活に適応するために、ネチズンは最小限のニュース単語を読み、ニュース記事の重要な内容を取得する必要があります。ネットユーザーは自動テキスト要約技術を使用してニュースの主要な内容を要約し、読む時間を節約し、情報の利用効率を向上させることができます。したがって、本稿で提案したニュース指向の自動テキスト要約モデルは非常に重要です。
  • 国内外の学者は自動テキスト要約について多くの研究を行ってきました。自動テキスト要約は、人々が情報の海から解放され、情報利用の効率を向上させるために 1950 年代に登場したコンピューターベースのテキスト要約技術です [2]。 2001 年に米国国立標準技術研究所が文書理解会議を開催して以来、自動テキスト要約に関する研究がますます注目を集めるようになりました [3]。
  • 文献 [4] に触発されたこの論文は、ネチズンがニュースを読んで理解するのに多くの時間を費やしているという問題を解決するために、BERT (Bidirectional Encoder Representations from Transformers) と Pointer Generator Network (PGN) に基づいた中国語ニュース テキストの方法を提案します。自動要約モデル - BERT ポインター生成ネットワーク (トランスフォーマー ポインター ジェネレーター ネットワークからの双方向エンコーダー表現、BERT-PGN) は、効果的に時間を節約し、情報の使用効率を向上させることができます。このモデルは、まず BERT の事前トレーニング済み言語モデルを使用してニュース テキストの単語ベクトルを取得し、多次元の意味特徴を組み合わせてニュース内の単語が含まれる文をスコアリングします。結果はポインター生成ネットワークに入力されます。トレーニング用の入力シーケンス、およびニュース概要の結果が得られます。この記事の主な寄稿は以下の通りです。
  • 1) この記事では、ニューステキストの自動要約モデル - BERT-PGN を提案します。このモデルは、事前学習モデルと多次元意味特徴に基づく単語ベクトル取得段階と、文章生成段階の 2 つの段階で実装されます。ポインタ生成ネットワークモデルのステージ上で。
  • 2) 実験結果は、このモデルが 2017 CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC2017) の単一文書中国語ニュース要約評価データセットで良好な結果を達成したことを示しています。その結果、Rouge-2 指標と Rouge-4 指標が増加しました。それぞれ 1.5% と 1.2% 増加します。

関連研究

- 自動テキスト要約には、抽出的要約と生成的要約という 2 つの主流の方法があります [5]。テキストのセマンティック マイニングの研究では、多くの古典的な分類アルゴリズムとクラスタリング アルゴリズムが提案されています [6]。初期の要約作業では、主に単語の頻度と文の位置に基づいた統計ベースの手法が使用されました [7]。 1958 年に、Luhn [8] は最初の自動テキスト要約システムを提案しました。過去 10 年ほどで、機械学習 (ML) と自然言語処理 (NLP) の急速な発展に伴い、多くの正確で効率的なテキスト要約アルゴリズムが提案されてきました [9]。商業メディアとしてのインターネットの急速な成長により、ユーザーはあまりにも多くの情報を吸収するようになりました。この情報過多を解決するには、自動テキスト要約が重要な役割を果たします。自動テキスト要約は、大量の干渉テキストをブロックするだけでなく、ユーザーが重要な情報をより迅速に取得し、現在のペースの速い生活に適応できるようにします [10]

  • 抽出的要約手法は、記事を小さな単位に分割し、その一部を記事の要約として抽出する手法です。 Liu et al. [11] は、敵対的生成ネットワーク (GAN) モデルを使用して、競争力のある Rouge スコアを取得する、抽出テキスト要約のための敵対的プロセスを提案しました。この方法では、より抽象的で読みやすく、多様なテキスト要約を生成できます。AlSabahi et al. [ 12] 階層構造自己注意モデル (HSSAM) を使用してドキュメントの階層構造を反映することで、より優れた特徴表現が得られ、モデルの過剰なメモリ使用の問題が解決されます。適切にモデル化できないなどの問題が発生します。Slamet et al. al. [13] は、VSM を使用して単語の類似性テストを実施し、自動テキスト要約の結果を評価し、テキスト要約の効果を比較するベクトル空間モデル (VSM) を提案しました。従来のテキスト自動要約手法、クラスタリング、最適化、進化アルゴリズムに基づく自動テキスト要約の研究が最近、良好な結果を示しています。しかし、抽出的要約では、テキストの章構造情報が考慮されておらず、テキスト内のキーワードや単語の理解が不足しており、生成された要約は可読性と連続性に乏しいものとなります。
  • 生成的要約手法とは、より高度な自然言語処理アルゴリズムを用いて、既存の文章や語句を利用せずに記事内の文章を言い換え、置換等し、記事の要約を生成する要約手法です。近年のディープラーニングの急速な発展に伴い、テキスト要約にディープラーニング手法が使用されるケースが増えています。
  • Cho ら [15] と Sutskever ら [16] はエンコーダとデコーダから構成される seq2seq (sequence-to-sequence) モデルを最初に提案し、Tan ら [17] はグラフベースの注意メカニズム ニューラルを提案しました。テキストでは、自動要約タスクで良好な結果を達成しています; Siddiqui et al. [18] は、グローバル アテンション メカニズムの代わりにローカル アテンション メカニズムを使用して、Google Brain チームによって提案されたシーケンスツーシーケンス モデルを改良しました。重複生成の問題を解決し、良好な結果を達成しました; Celikyilmaz ら [19] は、長い文書の要約を生成するためのエンコーダ/デコーダ アーキテクチャに基づくディープ コミュニケーション エージェント アルゴリズムを提案しました; Khan ら [20] は、セマンティックな役割を提案しました意味的役割理解の観点から複数文書の要約タスクを達成するために深層学習手法を使用する、ベースのマーキング フレームワーク; Jiang Yuehua et al. [21] は、seq2seq 構造とアテンション メカニズムに基づいて語彙特徴を統合した生成要約アルゴリズムを提案しました。要約生成プロセス中に、語彙機能を使用してより重要な語彙コンテンツを特定し、要約生成の品質をさらに向上させることができます。
  • 現在、自動テキスト要約手法のほとんどは、主に機械学習または深層学習モデルを使用して自動的に特徴を抽出し、そのモデルを使用して要約文を選択および圧縮します。しかし、自動抽出された特徴量や要約文は不十分で一貫性がなく、要約文をうまく説明できない場合があります。この記事で提案する BERT-PGN モデルは、BERT の事前学習済み言語モデルと多次元の意味特徴に基づいており、中国のニュース テキストに対して、より多くの次元から特徴を抽出し、要約テキストを深く特徴付けて、要約コンテンツを取得します。それは主題に近いです。

2 BERT-PGNモデル

  • この記事で提案する BERT-PGN モデルは、主に 2 段階で実装されます。1 つは事前学習モデルと多次元セマンティクスに基づく単語ベクトル取得段階、もう 1 つはポインタ生成ネットワーク モデルに基づく文生成段階です。図1。モデルの最初の段階では、事前トレーニングされた言語モデル BERT を使用してニュース記事の単語ベクトルを取得し、同時に多次元の意味論的特徴を使用してニュース内の文をスコアリングします。この 2 つは単純にポインタ生成ネットワーク モデルでは、ニュースを取得するための新しいテキストを生成する機能を維持しながら、繰り返しテキストの生成を減らすためにカバレッジ メカニズムが使用されます。概要。

ここに画像の説明を挿入します

2.1 事前学習モデルと多次元意味特徴に基づく単語ベクトル取得段階

2.1.1 BERT の事前トレーニング済み言語モデル
  • 言語モデルは自然言語処理の分野で重要な概念であり、言語モデルを使用して客観的な事実を記述すると、コンピューターで処理できる言語表現を得ることができます。言語モデルは、任意の言語シーケンス a1, a2, ..., an の確率 p(a1, a2, ..., an) を計算するために使用されます。つまり、次のようになります。
    ここに画像の説明を挿入します
  • 従来のニューラルネットワーク言語モデルで得られる単語ベクトルは単一かつ固定的であり、単語の曖昧さを表現できないなどの問題がありました。事前トレーニングされた言語モデルはこの問題をうまく解決し、文脈上の内容に基づいて単語を表現できます。 BERT は、特徴抽出のエンコーダーとして双方向 Transformer を使用します。これにより、より多くのコンテキスト情報を取得でき、特徴を抽出する言語モデルの能力が大幅に向上します。 Transformer コーディング ユニットは、セルフ アテンション メカニズムとフィードフォワード ニューラル ネットワークの 2 つの部分で構成されます。セルフ アテンション メカニズムの入力部分は、同じ単語からの 3 つの異なるベクトル、それぞれクエリ ベクトル (Q)、キー ベクトル (K)、および値ベクトル (V) で構成されます。入力単語ベクトル間の類似性は、クエリ ベクトルとキー ベクトルを乗算することによって表され、[QK]T として記録され、結果が適度なサイズになるように dk によってスケーリングされます。最後に、ソフトマックスを正規化演算に使用して確率分布を取得し、文内のすべての単語ベクトルの重みの合計表現を取得します。このようにして得られた単語ベクトルは、文脈情報を組み合わせてより正確になり、計算方法は次のようになります。
    ここに画像の説明を挿入します
  • BERT 事前トレーニング モデルは、複数のアテンション メカニズムを使用して文の文脈上の意味情報を取得する「マルチヘッド」モードを使用します。これは、マルチヘッド アテンション メカニズムと呼ばれます。 BERT の事前トレーニング済み言語モデルを使用すると、単語ベクトルがより多くのコンテキスト情報を取得し、元のコンテンツをより適切に表現できるようになります。
2.1.2 多次元の意味論的特徴
  • 中国ニュースの重要な内容がニュースの冒頭に集中し、キーワードが頻繁に出現するという特徴を考慮して、本論文では、中国ニュース本文の文章をきめ細かく記述するための伝統的な特徴と話題の特徴を導入し、テキスト内の文の文脈上の意味表現のパフォーマンスが向上します。
  • 1) 伝統的な特徴。
  • この記事で選択した従来の特徴は、主に文レベルでの 2 つの特徴、つまり文内の単語の頻度と記事内の位置です。単語頻度特徴はニュース記事の最も重要な情報を反映する統計特徴であり、最も単純かつ直接的な統計特徴でもあります。ニュース記事に出現する単語の単語頻度は、式 (3) を使用して計算できます。
    ここに画像の説明を挿入します
  • このうち、wordj は、j 番目の単語が記事中に出現する回数を表します。この記事では、記事内の文章がスコアリングの最終基本単位として選択されます。文章は単語の集合であり、文章に含まれる単語の中にニュース記事で頻繁に出現する高頻度単語が含まれている場合、その文章は記事内でより重要であると考えられます。ニュース記事の i 番目の文の単語頻度特徴スコア計算式は次のとおりです。
    ここに画像の説明を挿入します
  • このうち、 TFi は i 番目の文に含まれる単語の単語頻度の合計を表し、seni は i 番目の文に含まれるすべての単語を表します。位置特徴は、ニュース記事の重要な情報を反映する統計特徴でもあります。ニュース記事は複数の文で構成されており、記事の最初の文がニュース記事の中で最も重要な文であることが多いなど、文の位置や重要度も異なります。ニュース記事の i 番目の文の位置特徴スコア計算式は次のとおりです。
    ここに画像の説明を挿入します
  • このうち、Posi は i 番目の文の位置スコアを表し、pi はニュース記事内の i 番目の文の位置を表し、n は記事内の文の総数を表します。
  • 2) テーマの特徴。
  • この記事で選んだテーマの特徴は、タイトルの特徴としても表現できます。ニュース記事のタイトルは参照価値が高く、記事の主題をほぼ表すことができます。したがって、記事内の文がニュース記事のタイトルと類似度が高い場合には、その文が記事要約の文として選択される可能性が高くなります。この記事では、コサイン類似度を使用してニュース記事の i 番目の文のトピック特徴スコアを計算します。スコア計算式は次のとおりです。

ここに画像の説明を挿入します

  • その中で、Simi は i 番目の文とニュース記事のタイトルとの類似性を表し、s と t はそれぞれニュース記事のタイトルと文のベクトル化表現を表します。

2.2 ポインタ生成ネットワークモデルに基づく文生成段階

  • ポインタ生成ネットワーク モデルは、ポインタ ネットワーク (PN) とアテンション メカニズムに基づくシーケンスツーシーケンス モデルを組み合わせたもので、生成された単語をポインタを通じて直接指定したり、固定語彙から単語を生成したりできます。テキスト内の単語 wi は、BERT 多次元意味特徴エンコーダと双方向ロングショートタームメモリ (BiLSTM) エンコーダに順次渡され、隠れ層状態シーケンス hi が生成されます。時間 t で、Long Short-Term Memory (LSTM) ニューラル ネットワーク デコーダは、前の時間に生成されたワード ベクトルを受け取り、復号状態シーケンス st を取得します。
  • アテンション分布 at は、時刻 t でシーケンス文字を出力するときに、入力シーケンス内の注意が必要な文字を決定するために使用されます。次のように計算されます。
    ここに画像の説明を挿入します
  • このうち、v、Wh、Ws、battn は学習によって得られるパラメータです。アテンション分布は、エンコーダの隠れ層状態の平均に重みを付けてコンテキスト ベクトル ht* を生成するために使用されます。

ここに画像の説明を挿入します

  • コンテキスト ベクトル ht * は復号化状態シーケンス st と連結され、2 つの線形マッピングを通じて、辞書上の現在の予測の分布 Pvocab が生成されます。計算式は次のとおりです。
    ここに画像の説明を挿入します
  • このうち、V’、V、b、b’はトレーニングによって得られるパラメータです。
  • このモデルでは、単語をコピーするか単語を生成するかを決定する生成確率 Pgen を使用しており、計算式は次のとおりです。
    ここに画像の説明を挿入します
  • このうち、wh、ws、wx、bptr はトレーニングによって得られたパラメータ、σ はシグモイド関数、xt は復号された入力シーケンスです。 at
    をモデル出力として使用すると、生成された単語 w の確率分布が得られます。
    ここに画像の説明を挿入します
  • 単語が繰り返される問題を解決するために、この記事ではカバレッジ メカニズムを紹介します。カバレッジ メカニズムを通じてポインター生成ネットワーク モデルを改善すると、生成される概要の重複を効果的に減らすことができます。カバレッジ ベクトル ct は、生成された単語を追跡し、生成された単語に一定のペナルティを課して生成の重複を最小限に抑えるために導入されます。カバレッジ ベクトル ct は次のように計算されます。
    ここに画像の説明を挿入します
  • 平たく言えば、ct は、単語がこれまでに注目メカニズムから受け取った範囲の度合いを表します。カバレッジ ベクトル ct を使用して注意分布に影響を与え、での注意分布を再取得します。計算式は次のとおりです。
    ここに画像の説明を挿入します
  • ここで、Wc はトレーニングによって取得されたパラメータです。

3 実験と分析

3.1 実験データ

  • この記事の実験部分で使用されるデータは、2017 CCF International Natural Language Processing and Chinese Computing Conference (NLPCC2017) によって提供され、トレーニング内の 49,500 のニュース テキストを含む NLPCC2017 中国語単一ドキュメント ニュース概要評価データ セットからのものです。テストセットのセットおよびニューステキストは 500 記事です。このタスクで生成される概要の長さは 60 文字以下である必要があります。

3.2 評価指標

  • ルージュは、自動テキスト要約分野における要約評価技術の一般的な指標の 1 つであり、統計モデルによって生成された要約と手動要約との重複の基本単位を通じて、モデルによって生成された要約の品質を評価します。この記事では、NLPCC2017 中国語単一文書ニュース要約評価タスクを参照し、評価指標として Rouge-2、Rouge-4、および Rouge-SU4 を使用して要約結果を評価します。

3.3 比較実験

  • この記事の実験部分では 8 つの基本モデルを選択します。NLPCC2017 の単一ドキュメント ニュース概要評価タスクでより良い結果を出したチーム (ccnuSYS、LEAD、NLP@WUST、NLP_ONE) によって提案されたモデル
    [22]、PGN(カバレッジメカニズムなし)[23]、PGN[23]、トピックキーワード情報融合モデル[24]およびBERT-PGN(意味論的特徴なし)。本稿で提案する手法の有効性を検証するために、手動で抽出したトピック特徴量と従来特徴量の妥当性を検証する。

  • 1) ccnuSYS[22]: アテンション メカニズムに基づいた LSTM エンコーダ/デコーダ構造モデルを使用してサマリーを生成します。

  • 2) LEAD[22]: 元のテキストから最初の 60 単語をテキスト要約として選択します。

  • 3) NLP@WUST[22]: 特徴エンジニアリング手法を使用して文を抽出し、文圧縮アルゴリズムを使用して抽出された文を圧縮します。

  • 4) NLP_ONE [22]: NLPCC2017 の単一文書ニュース要約評価タスクで 1 位にランクされたアルゴリズム。入力シーケンスと出力シーケンスの注意メカニズムを含みます。

  • 5) PGN(カバレッジメカニズムなし)[23]:ACL2017 で提案された生成モデル。アテンションメカニズムに基づくポインタネットワークとシーケンスツーシーケンスモデルを使用して、カバレッジメカニズムを使用せずにサマリーを生成します。

  • 6) PGN (カバレッジメカニズム) [23]: カバレッジメカニズムを使用して、繰り返し単語や未登録単語の生成の問題を解決する、改良されたポインター生成ネットワーク モデル。

  • 7) トピックキーワード融合モデル[24]: トピックキーワード情報を組み合わせたマルチアテンションメカニズムモデル。

  • 8) BERT-PGN (セマンティック機能なし): この記事では、重複コンテンツの生成を減らすためにカバレッジ メカニズムを使用する、BERT とポインター生成ネットワークに基づくモデルを提案します。

  • 9) BERT-PGN (意味論的特徴): BERT-PGN (意味論的特徴なし) モデル上で最適化されたモデル。多次元の意味論的特徴を組み合わせて、きめの細かいテキスト コンテキスト表現を取得します。

3.4 実験環境とパラメータ設定

  • この記事の実験では、トレーニングに 1 つの GTX-1080Ti (GPU) を使用します。この実験では、BERT ベースの事前トレーニング済みモデルを使用してテキスト単語ベクトルを取得します。 BERT ベースのモデルには、合計 12 層と 768 次元の隠れ層があります。最大シーケンス長を 128、train_batch_size を 16、learning_rate を 5E-5 に設定します。ポインター生成ネットワーク モデルは、batch_size を 8 に設定し、 隠れ層の次元は 256 で、辞書サイズは 50k に設定します。トレーニング プロセスには合計 700k の反復が含まれ、合計トレーニング時間は約 7 日 5 時間 (合計 173 時間) です。

3.5 実験結果と解析

3.5.1 全体集計結果比較実験
  • この記事では、ベースライン モデルの一部を再実行し、得られた結果をこの記事で提案したモデルの結果と比較します。実験結果を表 1 に示します。
    ここに画像の説明を挿入します
  • 表 1 からわかるように、本稿で提案するモデルの性能は、PGN や NLP_ONE などのモデルと比較して大幅に向上しており、Rouge-2、Rouge-4、Rouge-SU4 の評価指標において明らかな利点を示しています。ルージュ指標 1.2 から 1.5 パーセント ポイントの増加。 BERT-PGN (セマンティック特徴) モデルを PGN および BERT-PGN (セマンティック特徴なし) モデルと比較すると、BERT 事前トレーニング済みモデルを効果的な多次元人工特徴と組み合わせて使用​​すると、モデル効果が大幅に向上することがわかります。 。 BERT 事前トレーニング モデルを使用して取得された文のコンテキスト表現と手動で抽出された特徴を組み合わせることで、テキスト内の文の意味をより深く正確に理解できるようになり、自動テキスト要約タスクのパフォーマンスを効果的に向上させることができます。
  • 表 2 のさまざまなモデルによって生成された要約の内容によると、他のモデルと比較して、中国語ニューステキストの自動要約タスクにおいてこの記事で提案した BERT-PGN モデルによって生成された要約コンテンツがより充実していることがわかります。 、より包括的で、標準的な要約に近く、このモデルが全文をより完全に理解し、テキスト内の文の文脈に基づいて文と単語の意味を完全に理解でき、文を説明できることを示しています。テキスト内の単語をさらに詳しく説明します。
    ここに画像の説明を挿入します
3.5.2 多次元意味特徴比較実験
  • 多次元特徴量選択部では,ニュースの特性を考慮して,それぞれTF,Pos,Mainで表される伝統的特徴と話題特徴の中から伝統的特徴,単語頻度特徴,位置特徴,タイトル特徴を選択した。 「主要な内容は最初に集中している」というテキスト。表 3 からわかるように、手動で抽出した単語頻度特徴と位置特徴を組み合わせた同じモデルが最も効果があり、Rouge-2 指数は最大 1.2 パーセント ポイント増加し、Rouge-4 指数は最大 1.2 パーセント増加しました。 1.0パーセントポイント。

ここに画像の説明を挿入します

  • この記事で選択したテーマ機能 Main は、モデルのルージュ指数をある程度向上させることができます。 Pos と Pos+Main、TF と TF+Main の特徴組み合わせ結果を比較すると、トピック特徴と単語頻度特徴を組み合わせると大幅な改善があることがわかりますが、単語頻度特徴と組み合わせた場合は基本的に改善が見られません。ポジション機能と組み合わせます。文がニュース内で上位に位置するほど、タイトルにより類似しており、ニュースにおける文の重要性を測定する際に 2 つの人工特徴が同様の役割を果たしていることがわかります。
  • TF+Main と TF+Pos の 2 つの特徴量の組み合わせの結果を比較すると、単語頻度情報と位置情報を組み合わせた方が、トピック情報を組み合わせるより効果が高く、ニュース記事における文章の重要性を十分に表現できることがわかります。したがって、この論文では、多次元特徴として単語頻度特徴と位置特徴の組み合わせを使用することを選択します。ニュース記事中に複数回出現するキーワードは、ニュース記事の中で最も重要な情報を反映する統計的特徴であり、単語頻度統計の意義は、記事内で表現されている重要なポイントを知ることにあり、また、文章が出現する位置は、文の重要性を反映する鍵でもあり、早く現れるほど、その文が記事内で果たす役割が大きくなります。したがって、単語の頻度と位置の特徴が自動要約モデルを改善する鍵となります。
3.5.3 カバレッジメカニズムの実験的解析
  • この記事で使用されているモデルは、カバレッジ メカニズムを使用して、重複コンテンツの生成の問題を解決しようとしています。生成されたサマリーに含まれる1グラム、2グラム、3グラム、4グラムの割合を計算することで、重複生成コンテンツの問題を解決するためのカバレッジ機構導入の効果を定量的に分析します。表 4 からわかるように、この記事で提案した BERT-PGN モデルは、NLP_ONE と比較して、生成されたコンテンツの重複を効果的に削減でき、重複の解決に明らかな効果があります。結果は、標準的な要約の効果に近いです。
  • 表 4 からわかるように、この記事で提案した BERT-PGN モデルは、NLP_ONE と比較して、生成されたコンテンツの重複を効果的に削減でき、重複の解決に明らかな効果があります。結果は、標準的な要約の効果に近いです。
    ここに画像の説明を挿入します

4 結論

  • この論文は,中国語ニューステキストのためのBERT-PGNモデルを提案する.BERT前処理モデルと多次元意味特徴を組み合わせて単語ベクトルを取得し,ポインタ生成ネットワークモデルとカバレッジメカニズムを組み合わせて使用​​して重複コンテンツの生成を削減する。実験の結果、中国ニュースの要約タスクにおいて、BERT-PGN モデルは標準の要約に近く、元のテキストのより多くの重要な情報を含む要約結果を生成し、重複して生成されるコンテンツの問題を効果的に解決できることが示されました。次のステップでは、要約結果を改善するためのニュース テキストなどの効果的な人為的特徴、モデルの簡素化とモデルのトレーニング時間の短縮、生成された要約コンテンツの完全性と流暢性の向上、ビルドなど、より多くの要素のマイニングを試みることになります。ニュース分野の外部データを使用すると、モデルが文のコンテキストに基づいて文の意味を完全に理解できるようになります。

職場やビジネスでこの論文を目にしたので、ついでに学習内容を記録しておきたいと思いました。オリジナルの論文が必要な場合は、電子メールにコメントして、電子メールに直接送信できます。

おすすめ

転載: blog.csdn.net/qq_38978225/article/details/129361343