ACL 2023 優秀論文 | 言語モデルの記憶とオントロジー知識の理解を探る

©著者 | ウー・ウェイチー

ユニット | 上海理工大学

投稿者 | Paper Weekly

大規模な言語モデルの出現により、自然言語処理分野の進歩は大きく促進されましたが、同時に、そのモデルが合理的に見えても実際には間違っている内容を生成する可能性があるなど、いくつかの限界もあります。幻覚(幻覚)といいます。幻覚の存在により、重要なタスクや実際のアプリケーションにおける大規模な言語モデルの信頼性が疑問視されます。

モデルの幻覚は、モデルによる関連知識の欠如または誤解が原因である可能性があります。人間が物事を考えたり記憶したりするとき、存在論的知識は思考プロセスにおいて重要な役割を果たします。オントロジーの知識には、カテゴリー、属性、およびそれらの間の関係が含まれます。それは世界を理解し、情報を整理して分類し、新しい知識を導き出すのに役立ちます。言語モデルの場合、モデル内の検出タスク、暗黙的知識、学習バイアスを設計できます。

963c6bcb712a10294639dc5231d7be9f.png

論文のタイトル:

PLM はオントロジー知識を認識し、理解していますか?

論文リンク:

https://www.aclanthology.org/2023.acl-long.173.pdf

コードリンク:

https://github.com/vickywu1022/OntoProbe-PLMs

82844defa8699856e9a76290901e08a7.png

背景紹介

トレーニング前の段階で大規模なモデルによって学習されたあらゆる種類の知識を調査するために、研究者はプローブ タスクを設計してこれらのモデルをテストします。これらのタスクでのモデルのパフォーマンスを通じて、言語モデルのさまざまな側面における学習バイアス、エラー、制限を理解し、モデルのパフォーマンスと信頼性の向上を図ることができます。しかし、既存の知識プローブは主に事実知識、つまり具体的な事実、属性、関係を記述する知識のモデルの記憶を研究します。たとえば、『西遊記』では「猿王が骨鬼を三度倒す」ということが、具体的な事実知識であることがわかっています。

事実の知識と比較して、オントロジーの知識はクラスと属性、およびそれらの間の関係に焦点を当てており、概念間の階層関係、属性の制約、その他の関連性を記述し、世界の知識を理解するための構造化された方法を提供します。以下はオントロジーの知識マップです。「孫悟空が骨の精を三度倒す」という事実の知識から、インスタンス タイプ (type)、サブクラス (subclass)、サブプロパティ (subproperty)、属性ドメインなどの概念間のつながりがさらに多くなります。 (ドメイン) と属性範囲 (範囲)。

ecea70c91bf57d829e8d5656c8cf0f83.png

オントロジーの知識は、モデルが現実世界のオブジェクトとその関係をよりよく理解するのに役立ち、質問応答などの多くの NLP タスクで重要な役割を果たします。したがって、事前トレーニングされた言語モデルがオントロジーの知識を記憶して理解できるかどうかを調査することは、言語モデルの認知能力に対する学術コミュニティの理解を拡大することができ、これは大規模なモデルが急速に開発されているこの時代において非常に重要です。

f41a6ec12c5214b1d8911f12bf139764.png

プローブ法

私たちは、エンコーダーベースの事前トレーニング済み言語モデル BERT および RoBERTa と、デコーダーベースの大規模モデル ChatGPT を研究します。エンコーダ構造モデルの場合は、プロンプトベースのプローブ手法を使用して、モデルが明らかにされたコンテキストに基づいて正しい答えを予測できるかどうかを調査しますが、デコーダ構造モデルの場合は、空白のプロンプトを複数のプロンプトに変換する必要があります。選択質問を行い、モデルが正しい選択肢を与えることができるかどうかを調査します。

2.1 記憶タスク

5 つのメモリ タスク サブテストを設計しました。各タスク サブテストは、オントロジー関係の事前トレーニングされた言語モデルの記憶能力を検出することです。

1. 指定されたインスタンスのタイプ。

2. 特定のクラスの親カテゴリ。

3. 与えられた属性の上位の属性。

4. 特定の属性のドメイン制約。

5. 特定の属性の範囲制約。

65283b95a1dcb5a42543858b1a93dea0.png

BERT モデルの場合、プローブ テストには人間のプロンプトとトレーニング可能なソフト プロンプトが使用され、次のプロンプトはオントロジー関係ごとに設計されています。このモデルは、対数確率予測に基づいて候補単語をランク付けします。

aae51edd131088bd13b8240c0bb0c8f1.png

2.2 推論タスク

リソース記述フレームワーク スキーマ (RDFS) で指定されたルールに従って推論タスクを構築し、各推論サブタスクは、三段論法ルールに従って推論するための事前トレーニング済み言語モデルの能力を調査します。各前提について、その前提がモデル入力に明示的に含まれているかどうかを区別し、記憶タスクのプローブ結果を使用して前提がモデルに記憶されているかどうかをさらに区別し、さまざまな形式の前提がモデルに与える影響を調査します。推論。

b34ce4c536f278816bb7acbd05ad3f68.png

モデルが推論ではなく仮説を暗記することによって正しい結論に達するのを防ぐために、仮説プロンプトに含まれる特定のインスタンス、クラス、属性を造語に置き換えます。エンコーダ構造化モデルの場合、特別なセマンティクスを使用せずに単語埋め込みを作成することで、事前トレーニングされた言語モデルの造語を取得します。

c487afed18a852c0e143f5e05e2142a1.png

実験結果と発見

3.1 記憶タスク

実験データの分析を通じて、次のことがわかりました。BERT モデルと RoBERTa モデルは特定のオントロジー知識を記憶できますが、完璧ではありません。

BERT と RoBERTa は、記憶タスクに関して強力な周波数ベースライン モデルを上回りました。これは、事前トレーニング プロセス中に、言語モデルがエンティティに関する事実の知識を学習するだけでなく、事実の背後にあるより抽象的なオントロジーの関係も学習することを示しています。これは、モデルが世界をよりよく体系化するために重要です。ただし、5 つのサブタスクに関するモデルの精度にはまだ改善の余地が多く、オントロジー知識記憶におけるモデルの限界が示されています。

0bd537645585e00b5064ebf4e6354c4b.png

BERT モデルと比較して、ChatGPT は記憶タスクの精度を大幅に向上させました。 

多肢選択は空白を埋める難易度に直接比較できないため、多肢選択形式のプロンプト単語を BERT 基本大文字小文字なしモデルにフィードし、ChatGPT と比較します。以下の表からわかるように、オントロジー知識に関連するほとんどの記憶タスクでは、ChatGPT は精度の点で BERT ベースのアンケースよりも大幅に優れており、オントロジー知識の記憶能力が強力であることがわかります。

b8d744dd74ae47895968fbb62085930d.png

3.2 推論タスク

実験データの分析を通じて、次のことがわかりました。BERT モデルと RoBERTa モデルでは、オントロジー知識の理解が限られています。

以下の図は、すべての推論ルールと BERT および RoBERTa モデルを平均した後の推論パフォーマンスを示しています。入力テキストで明示的に指定すると、モデルは正解のランキングを大幅に向上させることができました。予測する必要のある正解が含まれているため、論理的な推論によってパフォーマンスの向上が得られるのではなく、モデルが入力に出現する単語や関連語彙を予測する傾向があるため、パフォーマンスの向上が得られるのではないかという疑いが生じます。

前提が暗黙的に与えられている場合、前提が与えられていない場合よりも MRR が高くなります。これは、事前トレーニングされた言語モデルが、エンコードされたオントロジーの知識を使用して、推論のための正しい推論ルールを選択できることをある程度まで意味します。ただし、どの前提の組み合わせも完璧に近い推論パフォーマンス (MRR は 1 に近い) を与えることができず、オントロジーの知識を理解する事前トレーニング済み言語モデルの能力がまだ制限されていることを示しています。

01a12b0c6ff0fcb41ba4539a06b4b8e9.png

ChatGPT は、オントロジーの知識を推論して理解する強力な能力を備えています。 

ChatGPT は、推論前提がモデルの入力またはメモリに含まれている場合、さまざまな推論サブタスクで高い精度を示します。同時に、BERT ベースのアンケース化モデルと比較して、ChatGPT の明示的推論能力も優れています (97.1% 対 88.2%)。

f8013e90d2fe0af2c731bd9a314df489.png

ede39ca4ef9fe792359a472a53f6ecc9.png

要約する

この研究では、事前トレーニングされた言語モデルが事前トレーニングプロセス中にオントロジー知識を効果的にエンコードできるかどうか、および意味論的な内容を深く理解できるかどうかについて、包括的かつ体系的な議論を実施しました。その結果、言語モデルには特定の特徴があることがわかりました。オントロジー知識を記憶して理解する能力。オントロジー知識の推論ルールに従って、これらの暗黙の知識に基づいてある程度の推論を実行できます。ただし、モデルの記憶と推論には制限があります。同時に、ChatGPT の 2 つのタスクにおける優れたパフォーマンスは、モデルの記憶とオントロジー知識の理解がさらに向上する可能性がまだあることを証明しています。


NLP グループに入る —> NLP 交換グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/132288675