NLP 入門 (9) 語義曖昧さ回避 (WSD) の導入と実装 という 記事で、著者は語義曖昧さ回避の意味と、語義曖昧さ回避を実現するための簡単なアルゴリズムの使用方法を紹介しています。この記事では、著者は抽出 NLP モデルを使用して語義曖昧さ回避 (WSD) を実装する方法を紹介します。このモデルは論文ExtEnD: Extractive Entity Disambiguationからインスピレーションを得ています。
いわゆる単語の意味の曖昧さの解消とは、特定の文脈におけるあいまいな単語の正しい意味を識別することを指し、これは一般に多義性と呼ばれます。たとえば、「リンゴ」という単語の意味は文我今天吃了一个苹果
ごと苹果手机好用吗?
に異なります。語義の曖昧さをなくすには、特定の文脈で同じ単語の意味を判断する必要があります。語感の曖昧さ回避とエンティティのリンクは異なりますが、関連しています。これについては後で紹介します。
一般的な NLP モデルでは、語義の曖昧さ回避タスクはテキスト分類として完了することが多く、良好な結果が得られています。しかし、論文「ExtEnD: Extractive Entity Disambiguation」は、抽出的 NLP モデル (つまり、読解モデル) を使用して単語の意味の曖昧性を完全に解消する新しいパラダイムを提案しており、良好な結果も得ています。
語感の曖昧さの解消とエンティティのリンク
それの一部で词义消歧
ある と言うべきでしょう。实体链接
エンティティのリンク タスクは、通常、次の 3 つの段階に分かれています。
- エンティティの認識
- 候補単語の生成
- 候補単語のマッチング
語義曖昧さ回避では、同じ単語の異なる意味が単語候補として生成され、単語候補マッチングの第 3 段階で最も近い意味が見つけられます。エンティティ本草纲目
を例に挙げると、百度百科では次のように 15 の意味があります:
特定の文で、「マテリア メディカ大要」の特定の意味を決定できます。下の例を参照してください: 上記の文では、
正しい本草纲目
意味がわかります「マテリアメディカ大要」の「伝統的中国医学」古典は、典型的なエンティティリンクタスクであり、語義曖昧さ回避タスクとしても使用できます。
私の個人的な見解では、エンティティのリンクは通常、实体
グラフ内の正しいエンティティにリンクされますが、単語の意味の明確化は若干異なります。ほとんどの単語はグラフ内のエンティティですが、中国語の単語など、少数の単語はエンティティではなく単なる単語です。 . そよ風、ポインターなど。したがって、語義の曖昧さの解消はエンティティ リンクを通じて適切に実装できますが、この記事では、モデルが新しいデータに対してより適切にパフォーマンスを発揮できることを期待して、抽出 NLP モデル (新しいパラダイム) を通じて語義の曖昧さの解消を実装する方法についてのみ説明します。
データ紹介
今日の時点で、著者は休暇中に合計 26 の単語、327 の意味、2889 の注釈付きサンプルを構築しました。サンプルのほとんどは Baidu Encyclopedia からのものです。各サンプルには、テキスト、言及 (曖昧さを解消する単語)、正しい意味、および URL (正しい意味に対応する URL) が含まれます。次に例を示します。
文章 | 言及 | 正しい意味 | URL |
---|---|---|---|
医学の賢人李時珍と彼の『マテリアメディカ大要』 | マテリアメディカ大要 | 伝統的な中国医学の古典 | https://baike.baidu.com/item/マテリアメディカの概要/15342 |
アノテーション付きデータは、トレーニング セットとテスト セットに 8:2 の比率で分割されており、トレーニング セットには合計 2233 サンプル、テスト セットには合計 656 サンプルがあります。
モデルの入力は以下のようになります。
本文中の言及を や などの特殊記号で識別する必要があり、<e>
候補</e>
セットの組み合わせを次の文として入力し、</ec>
各意味項目の末尾に識別を追加します。
モデル
一般に文本多分类
、文本多标签文本
このモデル パラダイムは、正しい意味の照合に使用されます。Sapienza NLP Group, Sapienza University of Rome
この記事では、 ACL2022 論文「ExtEnD: Extractive Entity Disambiguation」で示されている抽出モデルを利用し、比較的単純な読解モデル (MRC) を使用して実装します。モデル構造は次の図に示されています。
モデルのトレーニングは注釈付きデータに対して実行され、最大テキスト長は 500、バッチ サイズは 16、トレーニングは 12 ラウンド、学習率は 0.00001、テスト セットは 0.9029 ですExact Match
。
モデル予測
1. 原語の意味項目の予測結果
タグ付けされた単語を予測します苹果
。Baidu 百科事典での意味は次のとおりです。
曖昧さ回避のために 2 つのオンライン文をランダムに選択し、結果は次のとおりです。
本文:[リンゴレシピ大全_おいしいリンゴの作り方_レシピ全リスト]_シアキッチン
正しい意味:バラ科リンゴの植物
Apple の 2022 会計年度第 2 四半期決算: 携帯電話事業は見事に成長し、その変革は実を結び始めました - 株式市場...
正しい意味: Apple Products Company
2. 新語意味項目の予測結果
ラベルのない単語を予測します南京
。Baidu 百科事典の意味は次のとおりです。
曖昧さ回避のために 2 つのオンライン文をランダムに選択し、結果は次のとおりです。
本文: 南京の食といえば金陵料理が有名ですが、金陵料理とは南京を中心に江西省九江市までの料理を指し、江蘇料理の代表的な四大料理の一つです。
正しい意味: 江蘇省が管轄する地級市および省都
テキスト: 映画監督のレオンシスは、2004 年にドキュメンタリー「南京」を撮影するというアイデアを思いつきました。
正しい意味: ヒューゴ アームストロング主演の 2007 年のアメリカ映画
ラベルのない単語を予測します平凡的世界
。Baidu 百科事典の意味は次のとおりです。
曖昧さ回避のために 2 つのオンライン文をランダムに選択し、結果は次のとおりです。
テキスト: 「The Ordinary World」: 永遠の魅力 - 文学と歴史 - Chinese Writers Network
正しい定義: Lu Yao の小説
テキスト: 「The Ordinary World」の主演者は誰ですか?
正しい意味: ワン・レイ、トン・リヤ、ユアン・ホン主演の 2015 年のテレビ シリーズ
ラベルのない単語を予測します碧血剑
。Baidu 百科事典の意味は次のとおりです。
曖昧さ回避のために 2 つのオンライン文をランダムに選択し、結果は次のとおりです。
テキスト: 『蒼血剣』は現代作家金庸による長編武侠小説です。金庸氏の有名な小説がテレビシリーズとしてリメイクされていることは誰もが知っており、「ブラッドソード」も例外ではありません。
正しい意味:金庸が書いた小説
テキスト: 2000 年版の「Blue Blood Sword」は、Li Tiansheng が制作し、Lin Jiadong、Charmaine Sheh、Jiang Hua が主演したコスチューム武侠テレビ シリーズです。ストーリーはあまり現実的ではありませんが、私はこのドラマでシャーメイン・シェが演じるアー・ジウがとても好きです!
正しい意味: リン・ジアドン主演の TV シリーズの 2000 年香港 TVB 版
要約する
このプロジェクトは Github にオープンソース化されており、URL はhttps://github.com/percent4/WSD_With_Text_Extractionです。
ご質問がございましたら、お気軽にお問い合わせください〜