論文タイトル:
PromptRank: Unsupervised Keyphrase Extraction Using Prompt
論文日付:2023/05/15(ACL 2023)
論文アドレス: https://arxiv.org/abs/2305.04490
GitHub
アドレス: https://github.com/HLT-NLP/PromptRank
抽象的な
キーワード抽出(keyphrase extraction, KPE)
タスクとは、指定された文書からフレーズを自動的に選択して、その中心的な内容を要約することを指します。最近では、埋め込みがドキュメントの埋め込みとどれだけ似ているかに基づいて候補テキストをランク付けするアルゴリズムによって、最先端embedding
のパフォーマンスが実現されています。(SOTA)
ただし、そのようなソリューションは、文書と候補の長さの違いを考慮するのに苦労するか、さらに微調整しないと事前トレーニングされた言語モデルを完全に活用できません(PLM)
。これらの問題を解決するために、本論文では、アーキテクチャPromptRank
に基づいたシンプルで効果的な教師なし手法を提案します。具体的には、文書がエンコーダに入力され、デコーダが候補語を生成する確率が、設計されたキューワードに基づいて計算されます。提案されたものは、広く使用されている 6 つのベンチマークで広範囲に評価されています。メソッドの場合と比較して、との返された結果では、スコアがそれぞれとで改善されており、教師なしキーワード抽出にを使用する大きな可能性が示されています。encoder-decoder
PLM
PromptRank
(prompt)
PromptRank
SOTA
MDERank
PromptRank
top5
top10
top15
F1
34.18%
24.87%
17.57%
prompt
1. はじめに
キーワード抽出の目的は、特定の文書からフレーズを自動的に選択してトピックを簡潔に要約し、読者が重要な情報を迅速に理解できるようにし、その後の情報検索、テキスト マイニング、要約などのタスクを容易にすることです。既存のキーワード抽出作業は、教師ありと教師なしの 2 つのカテゴリに分類できます。深層学習の発展に伴い、教師ありキーワード抽出手法は、 や などの高度なアーキテクチャを使用することで大きな成功を収めていLSTM
ますTransformer
。ただし、教師ありメソッドには大規模なラベル付きトレーニング データが必要であり、新しいドメインにはあまり一般化できない可能性があります。教師なしキーワード抽出方法には、主に統計ベース(statistics-based)
、グラフベース(graph-based)
、埋め込み(embedding-based)
ベースの方法が含まれており、産業シナリオではより一般的です。
埋め込みベースの手法は最近SOTA
性能が向上しており、さらに 2 つのタイプに分類できます。EmbedRank
や などの最初の方法ではSIFRank
、ドキュメントと候補キーワードを潜在空間に埋め込み、ドキュメントと候補キーワードの埋め込み間の類似性を計算し、最も類似した以前のk
キーワードを選択します。文書と文書の候補キーワードの長さの違いにより、これらのメソッドのパフォーマンスは、特に長い文書の場合には最適とは言えません。この問題を軽減するために、2 番目の方法が提案されています。事前にトレーニングされた言語モデルを利用することで(PLM)
、MDERank
候補キーワードの埋め込みが、元の文書から候補キーワードがマスクされたマスクされた文書の埋め込みに置き換えられます。マスクされた文書とオリジナルの文書の長さが近い場合、両者の距離を測定し、距離が大きいほどマスクされた候補文書のキーワードとしての重要度が高くなる。MDERank
長さの違いの問題は解決されますが、別の課題に直面しています。PLM
この距離の測定に特化して最適化されていないため、パフォーマンスをさらに向上させるにはコントラストの微調整が必要です(contrastive fine-tuning)
。これにより、キーワード抽出システムのトレーニングと導入にさらなる負担がかかります。さらに、これは、より強力な言語モデルが出現したPLM
ときに、大規模な言語モデルを迅速に適用することを妨げます。この研究
に触発されて、この論文では、著者らは、候補キーワードを慎重に設計されたテンプレート (つまり、 ) に入れることで候補キーワードの長さを延長することを提案しています。次に、文書と対応するヒントを比較するために、入力 (つまり、元の文書) と出力 (つまり、ヒント) を共有潜在空間にマッピングするアーキテクチャが採用されます。このアーキテクチャは広く採用されており、入力空間と出力空間を調整することにより、機械翻訳、画像記述などを含む多くの分野で大きな成功を収めています。教師なしキーワード抽出方法(たとえば)に基づいて、微調整なしで類似性を測定します。候補キーワードを選択した後、指定されたドキュメントがエンコーダーに入力され、デコーダーは設計された計算に基づいて候補キーワードの確率を生成します。確率が高いほど、候補単語の重要性が高くなります。これは、教師なしキーワード抽出に使用される最初のシステムです。必要なのは文書自体のみであり、それ以上の情報は必要ありません。十分な実験により、短文および長文に対するその有効性が実証されています。 この論文の主な貢献は次のように要約されます。候補単語をランク付けするアーキテクチャを使用した、シンプルで効果的な教師なしキーワード抽出方法が提案されています。この手法は、教師なしキーワード抽出に初めて使用されたもので、候補の位置情報、ヒントの長さなど、ランキングのパフォーマンスに影響を与える要素がさらに研究され、広く使用されている 6 つのベンチマークで評価されています。実験結果は、現在の方法を大幅に上回るパフォーマンスを示し、教師なしキーワード抽出に使用できる大きな可能性を示しています。CLIP
prompt
encoder-decoder
encoder-decoder
prompt
encoder-decoder
PLM
T5
prompt
PromptRank
prompt
PromptRank
(1)
PromptRank
encoder-decoder
PLM
prompt
(2)
(candidate position information)
(prompt length)
提示内容(prompt content)
(3)
PromptRank
PromptRank
SOTA
MDERank
prompt
2. 関連作品
2.1 教師なしキーフレーズ抽出
主流の教師なしキーワード抽出方法は、統計ベースの方法、グラフベースの方法、埋め込みベースの方法の 3 つのカテゴリに分類されます。統計ベースの方法では、頻度、位置、格、その他のキャプチャされた文脈情報の特徴などの統計的特性を総合的に考慮して、候補単語をランク付けします。グラフベースの手法はTextRank
によって最初に提案され、単語候補を頂点とし、候補単語の共起関係に基づいてエッジを構築し、PageRank
頂点の重みを決定する手法です。SingleRank
その後の、、、、TopicRank
などの作業はすべて改良PositionRank
です。 近年、埋め込みベースの手法が優れたパフォーマンスを達成しています。候補は、ドキュメントと候補の間に埋め込まれた類似性に基づいてランク付けされます。埋め込みの考え方に従って、文埋め込みモデルは事前トレーニングされた言語モデルと結合され、より良い埋め込み表現が得られます。ただし、これらのアルゴリズムは、文書と候補テキストの長さが一致しないため、長いテキストを処理する場合にはパフォーマンスが低下します。この問題は、候補ドキュメントの埋め込みをマスク ドキュメントの埋め込みに置き換えることによって解決されましたが、微調整しないと完全には活用できませんでした。これらの問題を解決するために、本論文ではキュー学習に基づく教師なしキーワード抽出手法を提案する。統計ベース、グラフベース、埋め込みベースの方法に加えて、事前トレーニングされた言語モデルを使用して自己注意と相互注意を計算し、文書内の候補単語の重要性と意味的関連性を判断します。MultipartiteRank
TextRank
EmbedRank
SIFRank
SIF
ELMo
MDERank
PLM
PromptRank
AttentionRank
2.2 迅速な学習
NLP
現場 では、キュー学習(prompt learning)
は、下流タスクでの事前トレーニング済み言語モデルの微調整に代わる新しいパラダイムと考えられています。微調整と比較して、自然言語形式はprompt
モデルの事前トレーニング タスクにより適しています。NLP
ヒント学習は、テキスト分類、関係抽出、固有表現認識、テキスト生成などの多くのタスクで広く使用されています。この論文は、や などのencoder-decoder
アーキテクチャPLM
の機能を活用して、教師なしキーワード抽出にヒント学習を使用した最初の論文です。著者の作品は、長さの不一致の問題を軽減するために候補単語の長さを増やすためのヒントの使用にもインスピレーションを得ています。BART
T5
CLIP
3. プロンプトランク
POS
、つまりpart-of-speech
、品詞タグ付けです。
PromptRank
コア アーキテクチャを上の図に示します。PromptRank
次の 4 つの主要な手順で構成されます。
(1)
ドキュメントddが与えられた場合d、品詞シーケンスに基づいて候補セットC = { c 1 , c 2 , ..., c_n } C = \{c_1, c_2, ..., c_n\} をC={
c1、c2、... 、cん
(2)
文書をエンコーダに入力した後、各候補単語に対してc ∈ C c \in Cc∈C、設計されたプロンプト情報を使用して、デコーダが候補単語を生成する確率を計算します。pcp_cpc;
(3)
位置情報を使用してccを計算しますcの位置ペナルティはrc r_cとして記録されます。rc;
(4)
確率と位置ペナルティに基づいて最終スコアsc s_cを計算します。scを押してから、sc s_cを押します。sc候補単語を降順に並べ替えます。
3.1 候補者の生成
筆者はいつものように、単語分割や品詞タグ付けを行ったコンテンツから正規表現を用いてキーフレーズ候補として名詞句を抽出します。<NN. *|JJ> * <NN.*>
3.2 確率の計算
埋め込みベースの手法の制限に対処するために、著者らは、encoder-decoder
元の文書と候補単語が入力されたテンプレートを共有潜在空間に変換するアーキテクチャを採用しました。ドキュメントとテンプレート間の類似性は、デコーダが塗りつぶされたテンプレートを生成する確率によって決まります。確率が高いほど、入力されたテンプレートが文書とより近くなり、候補単語の重要性が高くなります。計算を簡素化するために、候補単語をテンプレートの最後に配置することにしました。これにより、候補単語の確率を計算して順位を決定するだけで済みます。
具体的には、エンコーダ テンプレートにオリジナルのドキュメントを入力し、デコーダ テンプレートに候補ドキュメントを入力して、PLM
候補デコーダ テンプレートの系列確率 p ( yi ∣ y < i ) p(y_i | y<i) を取得します。。p (と私は∣ y<私)。長さ正規化対数尤度は(length-normalized log-likelihood)
その優れた性能から広く使われているため、候補単語の確率は次の式で計算できます: pc = 1 ( lc ) α ∑ i = jj + lc − 1 log p ( yi ∣ y < i ) p_c = \frac {1} {(l_c)^{\alpha}} \sum_{i=j}^{j+l_c-1} log\ p(y_i | y<i)pc=( lc)ある1i = j∑j + lc− 1l o g p ( y 私は∣ y<私) どこで、jjjは候補単語cccの開始インデックスlc l_c私cは候補単語の長さです、α \alphaαPromptRank
は、候補語長の優先度を調整するハイパーパラメータです負のPC p_cpc候補単語の重要度を降順に評価します。
3.3 ポジションペナルティの計算
私たちが記事を書くときは、通常、記事の要点から始めます。研究によると、文書内の候補単語の位置は、キーワード抽出の効果的な統計的特徴として使用できることがわかっています。
When writing an article, it is common practice to begin with the main points of the article.
あまり信頼できる感じではありませんね?
この論文では、著者らは位置ペナルティを使用して、乗算を通じて候補単語の対数確率を調整します。対数確率は負であるため、重要でない位置の場合、対応する位置ペナルティは大きくなります。これにより、重要でない位置にある候補語の全体スコアが低くなり、キーワードとして選択される可能性が低くなります。具体的には、候補単語「cc」に対して、cでは、PromptRank
次のように位置ペナルティを計算します: rc = poslen + β r_c = \frac {pos} {len} + \betarc=レン_ _pos _+β ここでpos posposは候補単語ccc が最初に出現する位置、len lenl e nはドキュメントの長さ、β \betaβは、位置情報の影響を調整するために使用される正のパラメータです。β \ベータβの値が大きいほど、位置ペナルティの計算における位置情報の役割は小さくなります。つまり、β \betaβが大きい場合、2 つの位置は位置rc r_crc貢献度の差は縮まります。したがって、異なるβ \betaを使用できます。候補位置の感度を制御するβ値。
著者らは、位置情報の有効性が文書の長さに関係していることも観察しました。記事が長いほど位置情報の効果は高くなります。したがって、長い文書の場合、β \betaβには小さい値が割り当てられます。経験則として、著者はβ \betaβ表の説明: β = γ len 3 \beta = \frac {\gamma} {len^3}b=レン_ _3c ここで、{\gamma} は実験的に決定する必要があるハイパーパラメータです。
3.4 候補者ランキング
ポジション獲得に対するペナルティポイントrc r_crcその後、PromptRank
最終スコアは次のように計算されます: sc = rc × pc s_c = r_c \times p_csc=rc×pc位置ペナルティは、単語候補の対数確率を調整し、記事の先頭から遠く離れた候補単語がキーワードとして選択される可能性を減らすために使用されます。著者は、最終的なスコアに従って候補単語を降順にソートし、最終的に前のk
候補単語をキーワードとして選択します。
4. 実験
4.1 データセットと評価指標
包括的かつ正確な評価を行うために、著者らは、現在の方法PromptRank
と一致して、広く使用されている 6 つのデータセットを評価しました。これらのデータセットは、、、、、およびです。データセットの統計を次の表に示します。SOTA
MDERank
Inspec
SemEval-2010
SemEval-2017
DUC2001
NUS
Krapivin
前作に引き続き、 、F1
の候補語top5
をtop10
評価top15
しました。計算中にF1
、重複する候補が削除され、ステミングが適用されます。
4.2 ベースラインと実装の詳細
著者らは、MDERank
と同じベースラインを選択しました。TextRank
これらのベースラインには、 、などのグラフベースのメソッドSingleRank
、TopicRank
などMultipartiteRank
の統計ベースのメソッド、YAKE
および のベースライン結果が直接使用される、 やそれ自体などの埋め込みベースのメソッドが含まれます。公平な比較のために、前処理と後処理の一貫性が確保されました。著者らは、で使用されているものと同様のパラメータ スケールを持つ(2 億 2,000 万パラメータ) モデルも使用しています。また、設定に合わせて、エンコーダー入力の最大長は に設定されています。これは、2 つのハイパーパラメータα \alphaを設定するだけで済む教師なしアルゴリズムです。EmbeddRank
SIFRank
MDERank
MDERank
PromptRank
MDERank
T5-base
MDERank
BERT-base
BERT
512
PromptRank
α和γ \ガンマγ。PromptRank
単一のデータセットを当てはめるのではなく、そのまま一般化できるように設計されています。したがって、著者らは同じハイパーパラメータを使用して 6 つのデータセットを評価しましたPromptRank
。ここでα\アルファαは0.6 0.6に設定されます0.6,γ \ガンマγは1.2 × 1 0 8 1.2 \times 10^8に設定されます1.2×1 08。
4.3 全体的な結果
上の表は、PromptRank
6 つのデータ セットに対するベースライン モデルの結果とスコアを示しています。その結果、すべてのデータセットのほぼすべての評価指標で最高のパフォーマンスが得られ、提案手法の有効性が証明されました。具体的には、 、 は方法を上回っており、、 、、についてそれぞれ、 、 、 の平均相対的改善を達成しています。embedding とembedding と比較すると、提案された方法はほぼすべてのデータセットで最高のパフォーマンスを達成するのに対し、主に 2 つの非常に長いデータセット ( 、)でパフォーマンスが向上することは注目に値します。これは、提案された方法の一般化能力を強調しており、文書の長さが異なるさまざまなデータセットでうまく機能することができます。 テキストの長さが増加するにつれて、テキストと候補テキストの長さの差はますます大きくなります。この問題の解決能力をさらに調査するために、著者らは、この問題を 6 つのデータセット、、およびの平均パフォーマンスと比較しました。文書長が長くなると、候補単語の数が急激に増加し、キーワード抽出性能が低下します。F1@5
F1@10
F1@15
PromptRank
6
PromptRank
SOTA
MDERank
F1@5
F1@10
F1@15
34.18%
24.87%
17.57%
SIFRank
MDERank
Krapivin
NUS
PromptRank
PromptRank
EmbeddRank
MDERank
F1@5
F1@10
F1@15
上図のようにEmbedRank
長さの違いの影響が特に大きく、性能の低下が早くなります。MDERank
そしてPromptRank
両方ともこの減少を緩和しました。ただし、MDERank
で使用されるマスクされたドキュメントの埋め込みは期待どおりに機能しません。これは、BERT
重要なフレーズが確実にブロックされるように訓練されていないため、埋め込みの変更がより大幅に行われるためです。BERT
マスクされたトークンを回収する訓練を受けているところです。PLM
このencoder-decoder
構造を利用して を使用することによりprompt
、長いテキストの埋め込みによるパフォーマンス低下の問題が より効果的に解決されるだけPromptRank
でなく、短いテキストでも両方のパフォーマンスを上回ります。MDERank
4.4 アブレーション研究
4.4.1 ポジションペナルティの影響
全体的なパフォーマンスに対する位置ペナルティの寄与を評価するためにPromptRank
、著者らは候補単語を手がかり確率のみに基づいてランク付けする実験を実施しました。結果を以下の表に示します。
位置ペナルティがない場合のPromptRank
パフォーマンスは大幅に向上していますMDERank
。位置ペナルティを考慮すると、特に長いテキスト データセットのパフォーマンスがさらに向上します。これは、手がかりベースの確率がPromptRank
中心である一方で、位置情報がさらなる利点をもたらす可能性があることを示唆しています。
4.4.2 テンプレートの長さの影響
PromptRank
埋め込みの長さの違いは、候補単語をテンプレートに埋めることで考慮されます。テンプレートが埋め込み欠陥をどの程度回避できるかを研究するために、著者は、異なる長さのテンプレート、つまり0
、2
、5
、を使用して10
実験を行いました20
。length のグループを除いて0
、各長さには4
手動テンプレートが含まれており (詳細については付録を参照A.2
)、位置情報は使用されません。テンプレートのコンテンツの影響を排除するために、テンプレートごとに、データセットのパフォーマンスに対する各データセットのパフォーマンスの比率がInspec(short text)
計算され、テキストの長さの増加によって引き起こされる劣化が測定されます。
上の図に示すように、ポリラインが高くなるほど、劣化は小さくなります。0
長さ1 と 2のテンプレートは2
著しく劣化しており、埋め込みと同じ問題に直面しているため、prompt
悪用することが困難です。それ以上の長さのテンプレートは5
、長さの違いの問題をより適切に解決し、テンプレート選択のガイドを提供します。
4.4.3 テンプレートコンテンツの効果
テンプレートの内容は、キーワード抽出のパフォーマンスに直接影響します。いくつかの典型的なテンプレートとその結果を上の表に示します (位置情報は使用されません)。1
空のテンプレートは最悪の結果をもたらします。テンプレートの2-5
長さは同じで、5
パフォーマンスはテンプレートよりも優れています1
。このテンプレートは、4
すべてのメトリクスで最高のパフォーマンスを実現します。したがって、この論文では、適切に設計されたキューが有益であると結論付けています。すべてのテンプレートは手動で設計されており、テンプレート構築の自動化は将来の作業として残されていることに注意してください。
4.4.4 ハイパーパラメータαの効果
PromptRank
候補語長の傾向はα \alphaで与えられます。αコントロール、α \alphaαが大きいほど、より長い候補単語が選択される可能性が高くなります。さまざまなα\alphaを探索するためにα値の影響について、筆者は位置情報を使わずにα\alphaαは、ステップ サイズ で から調整0.2
されます。α\アルファ1
0.1
各データセットのα6
の最適値を次の表に示します。
LとL_{と}Lそしてはゴールデン キーワードの平均語数です。直感的に言えば、データ セット内のL ak L_{ak}Lそして小さい方、α \alphaαの最適値はより小さい値である。結果は、ほとんどのデータセットがこの推測と一致していることを示しています。最高のL ak L_{ak}LそしてSemEval2017
α \アルファのαSemEval2017
が鈍感である理由は、データセット内のゴールデン キーフレーズの分布が比較的バランスが取れているためです一般化能力を維持するにはPromptRank
各ベンチマークで良好なパフォーマンスを示すα \alphaすべてのデータセットの最良の平均を追求するのではなく、 αF1
。したがって、 α \alphaを変更することをお勧めします。αは に設定されます0.6
。
4.4.5 ハイパーパラメータγの影響
位置情報の影響はβ \beta で決まるβコントロール、β \betaβが大きいほど、位置情報がランキングに与える影響は小さくなります。これまでの研究では、位置情報を含めると長いテキストのパフォーマンスが向上する一方で、短いテキストのパフォーマンスが低下する可能性があることが示されています。この問題を解決するために、著者はハイパーパラメータγ \gammaγドキュメントの長さに基づいてβ \beta を動的に調整しますβ、大きなβ \beta を小さなβ \betaを最大化した場合の、短いテキストに対するβの効果長文に対するベータ版の利点実験を通じてγ \gammaγの最適値は1.2 × 1 0 8 1.2 \times 10^81.2×1 08.6 つのデータセットに対してβ \betaβの平均値を5
。表が3
示すように、PromptRank
短いテキストのパフォーマンスは変わりませんが、長いテキストのパフォーマンスは大幅に向上しています。
4.4.6 PLM の効果
PromptRank
T5-base
デフォルトとして使用されますPLM
が、PromptRank
メカニズムが特定のものに制限されているかどうかを調べるためにPLM
、著者らはさまざまなサイズとタイプのモデルを使用して実験を実施しましたBART
。結果は表に示されており、6
ハイパーパラメータとヒントが最適化されている場合でも、T5-base
すべてのモデルが現在のSOTA
方法よりも優れたパフォーマンスを示していますMDERank
。これは、PromptRank
特定の構造に限定されず、さまざまな構造PLM
に対して強い汎用性があることを示しています。この方法により、より強力なものが利用可能になったときに、新しいものを迅速に適用できます。encoder-decoder
PLM
PLM
PLM
4.5 ケーススタディ
有効性を実証するために、著者らはデータセットPromptRank
からランダムに文書を選択し、結果として得られたスコア間の差異を比較します。著者らは生のスコアを正規化し、ヒート マップの形式で表示します。色が暖かいほどスコアが高く、候補単語の重要性が高くなります。ゴールデン キーワードには太字の斜体で下線が引かれています。この比較により、ゴールデン キーワードに高い評価を与え、無関係な候補をより適切に区別する方が正確であることがわかります。実験結果は、この方法よりも優れたパフォーマンスを示しています。Inspec
MDERank
PromptRank
MDERank
PromptRank
PromptRank
SOTA
MDERank
5。結論
本稿では、このアーキテクチャに基づいたprompt
教師なしキーワード抽出手法を提案する。候補単語は、デコーダによって設計されたヒントに基づいて候補単語が生成される確率を計算することによってランク付けされます。広く使用されている 6 つのベンチマークに関する広範な実験により、提案された手法の有効性が実証され、強力なベースラインを大幅に上回りました。パフォーマンスに影響を与えるさまざまな要因が徹底的に研究され、貴重な洞察が得られます。この方法では、アーキテクチャを変更する必要がなく、追加のパラメータも導入しないため、シンプルで強力なキーワード抽出方法となります。PromptRank
encoder-decoder
PLM
PromptRank
PLM
WeChat 公開アカウントをフォローして、
夏小悠
より多くの記事、論文PPT
、その他の情報を入手してください ^_^