论文阅读| テーブルからテキストへの生成を評価する際の分岐参照テキストの処理

論文のアドレス:https : //www.aclweb.org/anthology/P19-1483/

作者:ブーワンディングラ、マナールファルキ、アンクルパリフ、ミンウェイチャン、ディパンジャンダス、ウィリアムコーエン

組織:CMU、Google

 

研究の問題:

焦点は、table2textの評価指標にあります。現在、BLEUとROUGEが主に使用されていますが、この評価指標の前提は、参照テキストが完全に標準であることであり、実際にはそうではありません。このペーパーでは、新しい評価指標PARENT(表からの含意Ngramの精度と再現)を提案します。これは、参照のn-gramと生成されたテキストを半構造化データに比較し、それらの精度と再現率を計算することです。

次に例を示します。

 

左の文の赤い部分は表から導き出せない情報であり、緑の部分は導き出すことができる情報であることがわかります。これは、データセットの参照文が表の情報からある程度分岐している(発散している)ことを意味します。ただし、候補テキスト3で実際に取得する必要がある情報は、参照テキストには表示されません。評価にBLEU値またはROUGE値を使用すると、候補テキスト3のスコアが最も低く、これは明らかに人間の判断と一致していません。したがって、テキストの逸脱を解決する方法、またはより人間の判断基準に沿った指標を開発する方法が必要です。PARENTは、生成された文を表の情報と直接比較して、人間の判断により一致するようにします。

 

調査方法:

最初にtable2textタスクを定義します。テーブルをレコードのコレクションとして表します。各レコードはトリプル(エンティティ、属性、値)です。テーブル内のすべてのレコードのエンティティが同じ場合、エンティティを省略してバイナリ(属性、値)に変換できます。タスクは、与えられたテーブルレコードに従ってそれを説明する滑らかなテキストGを生成することです。トレーニング段階では、参照テキストRもあると想定します。データセットのテキストはと記述できます

さらに、表現内のn-gramセット、対応するテキスト内のgの数と、表現内のgの数の最小値表すために使用されます

以下は、データのグループごとに評価されるPAENTの詳細な紹介です

暗黙の確率:

テキストに表示されるnグラム(gで示される)を表し、指定されたテーブルでの真の確率です。つまり、gがテーブルから推測できる確率です。著者は、この確率を推定するために2つのモデルを導入しました。

単語の重複モデル:に出現するすべての単語のセットを示し、を計算します。ここで、nはgの長さです。

共起モデル:このg-gram内の単語をテーブルから導出する確率は、いずれかの項を使用してそれを推定する最大確率と同じです。ここでvはテーブル内のアイテムです。これは、トレーニングセット内のエントリと参照の共起の数をカウントすることによって取得されます。nグラム母集団の確率は、幾何平均です。

 

次に、精度と再現率を計算します。

精度:精度を計算する場合、生成されたテキストで正しいn-gramの数を知る必要があります。正しい定義には2つの側面があります。1つは、n-gramが参照テキストに表示されるか、そのw(g)スコアが高いため、正しいと言われています。

参照テキストにgが現れる確率を表すために使用し、精度の式は次のとおりです。

 

上記の式の説明は、gが参照テキストにpの確率で現れる場合、それ以外の場合

BLEUと同様に、1〜4グラムを使用して、幾何平均表現の精度を計算します。

 

リコールリコールを計算するときに、参照テキストと表の両方が考慮されます。

まず、参照テキストに関する想起を計算します。式は次のとおりです。

 

重み付けにw(g)を使用するのは、上記の偏差問題を解消するためです。

これは精度と同じで、1〜4グラムを使用して幾何平均を求めます。

テーブルはレコードのコレクションであるため、テーブルパーツのリコール用レコードr_kの場合、文字列値(つまり、上の図1のMichael Dahlquistまたはmaleなどのコンテンツアイテム)を表すために使用します。計算式は次のとおりです。

 

この記事と表を参照してそれぞれの再現率を取得した後、幾何平均を最終再現率とします。

 

幾何平均はAND演算として理解できます。つまり、両方の再現率が高い場合にのみ、最終的な再現率が高くなります。たとえば、テーブルのコンテンツを直接コピーするだけでも非常に高くなる可能性がありますが、良い結果ではありません。

精度と再現率を取得した後、親の値であるF値を計算できます。モデルMの場合、その親の値は次のようになります。

 

一部の操作:

(1)滑らか。相乗平均を計算するプロセスで0の発生を回避するために、平滑化法が使用されます。具体的には、各ゼロに小さい値割り当てます

(2)複数の参照。複数の参照テキストがある場合、METEORのように各参照テキストのPARENT値を計算し、最大値を取ります。

 

情報抽出の評価方法:

親指標に加えて、著者は情報抽出のための評価基準を提案します。著者は、テキストから(属性、値)のペアを抽出し、それらをテーブルの内容と比較するポインタネットワークを提案します。著者はwikiBioでトレーニングを行い、F値35.1を達成しました。

そのような情報抽出システムを取得した後、次の3つの評価方法を使用できます。

コンテンツ選択(CS):F値を比較するために、生成されたテキストと参照テキストからペア(属性、値)を抽出します。

Relation Generation(RG):生成されたテキストから(属性、値)のペアを抽出し、テーブルと比較して正確な値を取得します。

RGF:上記と同様に、F値のみが比較されます。

実験部分:

最初に、いくつかのモデルを手動で評価します。評価基準には、流暢さ、情報の整合性、コンテンツの信頼性が含まれます。結果は次のとおりです。

 

ご覧のように、PG-Netは最良の結果を達成しました。

次に、さまざまな指標の下でモデルの結果が表示されます。

ここでのC / Wは、確率モデリングの2つのモデル(単語の重複モデルと共起モデル)に対応しています。この表から、PARENTの識別が他の評価基準よりもはるかに優れていることは明らかです。

 

評価:

table2textの評価指標について議論する優れた論文。BLEUとMETHORを使用する評価指標の場合、参照テキストのみが考慮され、表自体は考慮されません。したがって、この記事の動機は当然テーブル情報の使用を提案しています。計算方法は、グラムとテーブル内の情報の間の類似度を一致させることにより、参照テキストとテーブルによって提供される情報の間のエラーが回避されます。その後、「正しさ」の定義により、参考テキストと表部分の2つの部分のスコアが数式に統一されます。実験部分では、PARENTの区別が非常に良好であることがわかり、また、PARENTが人間の評価と最も高い相関、つまり人間の評価基準と最も一致していることを実験により証明しました。また、筆者は情報抽出手法の評価について議論しているが、前編をオープンフィールドに拡張し、実験を通じて評価した。

おすすめ

転載: www.cnblogs.com/bernieloveslife/p/12748989.html
おすすめ