メモの整理:東南大学修士のDu Miaozeng、研究の方向性はマルチモーダルな情報抽出です
リンク: https://aclanthology.org/2022.emnlp-main.401.pdf
モチベーション
Open Information Extraction (OIE) は、非構造化自然言語テキストから構造化情報を抽出することに重点を置いた Information Extraction (IE) の一分野です。いくつかの OIE メソッドは、OIE をシーケンスのラベル付けまたはシーケンス生成の問題として扱います。OIE のタスクでは、構文情報を組み込む方法として品詞トークンと依存関係トークンを使用するのが一般的です。これらのトークンを使用する作品では、トークンの埋め込みは対応するテキスト トークンの埋め込みにのみ接続されており、構文情報を最大限に活用していない表現になります。シーケンス生成方法では、冗長な情報を表すファクトや、ファクト内の繰り返しテキストが生成される傾向があります。
この論文では、シーケンス生成手法を使用して、自然言語テキストから事実をそのまま生成します。依存関係ツリー構造に基づいて、入力テキスト トークンの構文的に豊富なベクトル表現を計算します。依存関係ツリーの構造に従って、タグ付けされた可視性マトリックスを構築します。ニューラル OIE モデルをトレーニングするための新しいアプローチも導入され、生成されたタプルを入力として受け取り、そのトークンを「true」または「false」に分類する追加モジュール (識別子) が追加されます。カバレッジ ベクトルを使用して、入力テキスト内の単語が受け取るカバレッジの程度を監視します。現在の注目の決定に以前の決定を学習させて、入力テキスト内の同じ単語に繰り返し注目することを回避しやすくし、事実内の重複テキストを回避します。さらに、語彙または入力テキストから単語が選択される確率は、モデルのコンテキスト ベクトルを使用して明示的に計算されます。
助ける
この文書の主な貢献は次のとおりです。
(1) 依存関係ツリーとグラフ アテンション ネットワーク構造を使用して、構文的にリッチなテキスト埋め込みを計算する新しい方法。
(2) OIE の新しい識別トレーニング方法。ファクトを生成するモデルの上に識別器を提案し、生成されたファクト内のトークンは「本物」または「偽物」に分類されます。
(3) CaRB、OIE201、および LSOIE データセットの言い換えバージョンの提案。
方法
全体の枠組みは図 1 に示されており、主に生成モジュール (generator) と識別モジュール (discriminator) で構成されます。ジェネレータはポインタ生成ネットワークを使用してテキストからファクト タプルを生成し、ディスクリミネータはバイナリ分類子を使用して、生成されたタプル内の単語が真か偽かを判断します。ジェネレーターには、埋め込みモジュール、符号化モジュール、および復号モジュールが含まれます。埋め込みでは、事前にトレーニングされた言語モデルまたはその他のニューラル ネットワークを使用して、単語シーケンスを単語埋め込みベクトルにマッピングし、品詞および依存関係ラベルと組み合わせます。エンコードでは、グラフ アテンション ネットワークまたは Transformer エンコーダーを使用して、依存関係ツリーの構造を考慮して入力シーケンスのベクトル表現を計算します。デコードでは、BiLSTM ネットワーク、Transformer、またはフィードバック Transformer を使用して単語ごとにタプルを生成し、生成確率とカバレッジ メカニズムを使用して単語の生成またはコピーの確率を制御し、単語の繰り返しの発生を回避します。
図1 全体フレーム図
語彙全体にわたる分布を計算するには、エンコーダ コンテキスト ベクトルとデコーダ コンテキスト ベクトルの加重平均を計算し、結果のベクトルを線形層にフィードします。
ここで、 と は学習可能なパラメータ、 は語彙内のすべての単語の確率分布です。は、語彙から次の単語 w を予測する最終確率を与えます。
モデル損失は、発生器損失と弁別器損失の合計です。次の単語を生成する確率とカバレッジ メカニズムを使用して、ジェネレーターの損失を計算します。
ここで、 はカバレッジ ベクトル、 は注意スコア、 は生成されたタプル内の i 番目のトークンのベクトル表現、 は入力コンテキスト ベクトルです。
実験
実験部分では、3 つのベンチマーク データセット (OIE2016、CaRB、LSOIE) を使用してモデルのトレーニングと評価を行い、CaRB 評価フレームワークを使用して F1 値と AUC-PR 値を計算しました。
合計 15 の異なるニューラル ネットワーク モジュールの組み合わせが設計され、6 つの異なる実験設定で比較実験が実行されました。
(a) デフォルト設定、埋め込みモジュールと復号モジュールのみ。
(b) + 弁別器設定。デフォルト設定に弁別器モジュールを追加します。
(c)+Transformer エンコーダ設定。デフォルト設定に Transformer エンコーダ モジュールを追加します。
(d) +GNN エンコーダ設定。グラフ アテンション ネットワークに基づくエンコーダ モジュールをデフォルト設定に追加します。
(e) + Transformer エンコーダ + ディスクリミネータ設定。デフォルト設定に Transformer エンコーダ モジュールとディスクリミネータ モジュールを追加します。
(f) + GNN エンコーダー + ディスクリミネーター セットアップ。グラフ アテンション ネットワーク ベースのエンコーダー モジュールとディスクリミネーター モジュールをデフォルトのセットアップに追加します。
表 1 は、実験設定の下で CaRB 上で評価されたモデルを示しています。事前トレーニング済みの ELECTRA モデルを埋め込みモジュールとして使用し、フィードバック Transformer をデコード モジュールとして使用することを組み合わせると、すべての実験設定で最高のパフォーマンスが達成されます。CaRB データセットでは、この組み合わせは +GNN エンコーダー + ディスクリミネーター設定で 0.747 の F1 値と 0.740 の AUC-PR 値を達成し、以前の最良の結果を上回りました。表 2 は、混合データセットでトレーニングした場合の結果を示しています。
表 1: CaRB データセット上のさまざまなモジュールの組み合わせ結果。太字の結果は、各設定での最高のパフォーマンスを示します。
表 2: 言い換え、オリジナルおよびハイブリッド バージョンの CaRB でトレーニングした場合の最良のモデル (ELECTRA + GNN エンコーダー + ディスクリミネーター) のパフォーマンス
解析とアブレーション実験の結果、入力シーケンスのベクトル表現を計算するための依存関係ツリー構造の使用と、判別トレーニング手法の使用により、モデルのパフォーマンスが大幅に向上することがわかりました。また、生成確率とカバレッジを使用することもわかりました。このメカニズムにより、生成されたタプル ワードの繰り返しが効果的に削減され、暗黙的なファクトを生成する能力が向上します。
表 3: CaRB でのすべての実験における、さまざまなブロック上のさまざまなモジュールの平均パフォーマンス。(i) エンベッダー (ii) デコーダー
実験結果から、著者の方法はすべての指標において既存のニューラルネットワークOIEモデルよりも優れており、従来のシーケンスラベリングまたはシーケンス生成方法と比較して、依存関係ツリーの構文と意味情報を最大限に活用し、効果的なエリア 生成されたファクト内の真偽の単語を区別し、繰り返される単語の生成を減らし、暗黙的なファクトを生成する能力を向上させます。同時に、著者らは、書き換えられたデータセットをデータ拡張に使用すると、モデルのパフォーマンスが大幅に向上し、特に最新の CaRB データセットで最先端のパフォーマンスに達する可能性があることも示しています。
要約する
この論文では、ニューラル ネットワークのオープンな情報抽出の問題を研究し、新しいトレーニング方法を提案し、依存関係ツリー構造を組み合わせて文法に富んだテキスト埋め込みを計算し、生成されたファクト内の単語を真または偽として分類する弁別器を設計し、カバレッジ メカニズムと生成確率は、繰り返される単語の生成と暗黙的な事実の生成を制御します。実験結果は、この論文で提案された方法がさまざまな指標において既存のニューラルネットワークOIEモデルよりも優れており、特に最新のCaRBデータセットで最先端に達する、より正確で完全な事実を生成できることを示しています。
OpenKG
OpenKG(中国語オープンナレッジグラフ)は、中国語を核としたナレッジグラフデータのオープン性、相互接続、クラウドソーシングを促進し、ナレッジグラフアルゴリズム、ツール、プラットフォームのオープンソースとオープンソースを促進することを目的としています。
クリックして原文を読み、OpenKG Web サイトに入ります。