固有表現認識(NER)の開発の簡単な歴史

近年、ニューラルネットワークに基づくディープラーニング手法は、コンピュータービジョンと音声認識の分野で大きな成功を収めており、自然言語処理の分野でも多くの進歩を遂げています。NLPの主要な基本タスクであるエンティティ認識(NER)の研究では、ディープラーニングも良い結果を達成しています。最近、著者はディープラーニングに基づくNER研究に関する一連の関連論文を読み、それらを概念のNER基本モジュールに適用しました。ここで、学習を要約して共有します。

1. NERの概要

適切な名前認識とも呼ばれるNERは、自然言語処理の基本的なタスクであり、幅広い用途があります。名前付きエンティティは通常、テキストに特定の意味または強い参照があるエンティティを指します。通常、人、場所、組織の名前、日付、固有名詞が含まれます。NERシステムは、非構造化入力テキストから上記のエンティティを抽出し、製品名、モデル、価格などのビジネスニーズに応じて、より多くのタイプのエンティティを識別できますしたがって、ビジネスで必要とされる特別なテキストフラグメントをエンティティと呼ぶことができる限り、エンティティの概念は非常に広くなる可能性があります。

学術的に、NERに関与する名前付きエンティティには、通常3つのカテゴリ(エンティティカテゴリ、時間カテゴリ、数値カテゴリ)と7つのサブカテゴリ(個人名、地名、組織名、時間、日付、通貨、パーセンテージ)があります。

実際のアプリケーションでは、NERモデルは通常、人、場所、組織、日付の名前を認識するだけでよく、一部のシステムでは適切な名詞の結果(略語、会議名、製品名など)も提供します。通貨やパーセンテージなどのデジタルエンティティは、正規化によって取得できます。さらに、一部のアプリケーションシナリオでは、本のタイトル、歌のタイトル、定期的なタイトルなど、特定のフィールドのエンティティが提供されます。

NERはNLPの基本的な主要タスクです。自然言語処理の観点から、NERは、字句解析における一種の登録されていない単語認識と見なすことができます。これは、最も認識されない単語であり、認識が最も困難であり、単語分割の影響に最も大きな影響を与えます。同時に、NERは、関係抽出、イベント抽出、ナレッジグラフ、機械翻訳、質問応答システムなど、多くのNLPタスクの基盤でもあります。

一部の学者はこれは解決された問題であると考えているため、NERは現在ホットな研究トピックではありません。もちろん、一部の学者はこの問題がうまく解決されていないと考えています。主な理由は、名前付きエンティティの認識が限られたテキストタイプ(主にニュースコーパス)とエンティティカテゴリ(主に人、場所、組織の名前)でのみ取得されることです。他の情報検索フィールドと比較して、エンティティの名前付け評価は小さく、オーバーフィッティングが発生しやすいことが予想されます。名前付きエンティティの認識は、高い再現率に重点を置いていますが、情報検索の分野では、高い精度がより重要です。一般的な認識多くのタイプの名前付きエンティティは、システムパフォーマンスが低下します。

2. NERでの深層学習手法の適用

NERは常にNLPの分野で研究のホットスポットになっています。初期の辞書ベースおよびルールベースの方法から、従来の機械学習方法、近年の深層学習ベースの方法に至るまで、NER研究の進展の一般的な傾向は、次の図に大まかに示されています。

図1:NERの開発動向

機械学習に基づく方法では、NERはシーケンスのラベル付け問題と見なされます。大規模なコーパスを使用して注釈モデルを学習し、文の各位置に注釈を付けます。NERタスクで一般的に使用されるモデルには、生成モデルHMMと判別モデルCRFがあります。条件付きランダムフィールド(条件付きランダムフィールド、CRF)は、NERの現在の主流モデルです。その目的関数は、入力状態特徴関数を考慮するだけでなく、ラベル転送特徴関数も含みます。SGDは、トレーニング中にモデルパラメータを学習するために使用できます。モデルがわかっている場合、入力シーケンスを見つけて出力シーケンスを予測すること、つまり目的関数を最大化する最適なシーケンスを見つけることは、動的プログラミングの問題です。Viterbiアルゴリズムを使用してデコードし、最適なラベルシーケンスを取得できます。CRFの利点は、ロケーションにラベルを付けるプロセスで、豊富な内部およびコンテキスト機能情報を利用できることです。

図2:線形チェーン条件付きランダムフィールド

近年、ハードウェアコンピューティング機能の開発と単語埋め込みの導入により、ニューラルネットワークは多くのNLPタスクを効果的に処理できます。この種の方法は、シーケンスラベリングタスク(CWS、POS、NERなど)の処理に似ています。トークンを離散的なワンホット表現から低次元空間にマッピングして、埋め込みを密にしてから、埋め込みシーケンスの文をRNNに入力します。この方法では、特徴を自動的に抽出するためにニューラルネットワークが使用され、Softmaxは各トークンのラベルを予測します。

この方法は、モデルトレーニングを従来のパイプラインではなくエンドツーエンドプロセスにし、特徴エンジニアリングに依存せず、データ駆動型の方法ですが、ネットワークには多くのタイプがあり、パラメーター設定に大きく依存しており、モデルの解釈が不十分です。さらに、この方法の欠点は、各トークンにラベルを付けるプロセスが独立して実行され、上記で予測されたラベルを直接使用できないことです(暗黙の状態で送信できるのは上記の情報のみです)。シーケンスが無効である可能性があります。たとえば、ラベルI-PERの後にB-PERを続けることはできませんが、Softmaxはこの情報を使用しません。

学術コミュニティは、シーケンスアノテーションのDL-CRFモデルを提案しています。CRFレイヤー(ラベル遷移確率の使用に重点を置く)はニューラルネットワークの出力レイヤーに接続され、文レベルのラベル予測を行うため、ラベリングプロセスは各トークンを個別に分類する必要がなくなります。

2.1 BiLSTM-CRF

LongShort Term Memoryネットワークは一般にLSTMと呼ばれ、長距離依存情報を学習できる特別なタイプのRNNです。LSTMはHochreiter&Schmidhuber(1997)によって提案され、最近改良され、Alex Gravesによって推進されました。LSTMは多くの問題でかなりの成功を収めており、広く使用されています。LSTMは、巧妙な設計を通じて長距離依存の問題を解決します。

すべてのRNNには、繰り返しニューラルネットワークユニットのチェーン形式があります。標準のRNNでは、この繰り返し単位はtanh層のような非常に単純な構造しかありません。

図3:従来のRNN構造

LSTMは同じ構造ですが、繰り返し単位の構造が異なります。通常のRNNユニットとは異なり、ここには4つあり、非常に特別な方法で相互作用します。

図4:LSTM構造

LSTMは3つのゲート構造(入力ゲート、忘却ゲート、および出力ゲート)を使用して、履歴情報を選択的に忘却し、現在の入力情報を追加し、最後に現在の状態に統合して出力状態を生成します。

図5:LSTMの各ゲート構造

NERで使用されるbiLSTM-CRFモデルは、主に埋め込み層(主にワードベクトル、ワードベクトルといくつかの追加機能)、双方向LSTM層、および最終CRF層で構成されています。実験結果は、biLSTM-CRFが豊富な機能に基づくCRFモデルに到達したか、それを超えており、ディープラーニングに基づくNERメソッドの最も主流のモデルになっていることを示しています。特徴に関しては、モデルは特徴エンジニアリングなしでディープラーニング手法の利点を継承し、単語ベクトルと文字ベクトルを使用して良い結果を得ることができます。高品質の辞書特徴があれば、さらに改善できます。

図6:biLSTM-CRFの概略図

2.2 IDCNN-CRF

シーケンスのラベル付けの場合、一般的なCNNには、畳み込み後、ニューロンの最後の層が元の入力データの小さな情報しか取得できないという欠点があります。NERに関しては、入力文全体のすべての単語が現在の位置の注釈、いわゆる長距離依存問題に影響を与える可能性があります。すべての入力情報をカバーするには、より多くの畳み込み層を追加する必要があり、結果としてより深い層とより多くのパラメーターが生成されます。過剰適合を防ぐために、ドロップアウトなどのより多くの正則化を追加して、ハイパーパラメーターを増やす必要があり、モデル全体が巨大になり、トレーニングが困難になります。CNNの欠点のため、ほとんどのシーケンスのラベル付け問題では、人々は依然としてbiLSTMなどのネットワーク構造を選択し、ネットワークのメモリを使用して全文情報を記憶し、現在の単語に可能な限りラベルを付けます。

しかし、これには別の問題があります。BiLSTMは本質的にシーケンスモデルであり、GPU並列計算の使用においてはCNNほど強力ではありません。GPUにCNNのような本格的な戦場を提供し、LSTMのような単純な構造で可能な限り多くの入力情報を記憶するにはどうすればよいでしょうか。

Fisher YuとVladlen Koltun 2015は、拡張されたCNNモデルを提案しました。これは、「拡張された」CNNを意味します。考え方は複雑ではありません。通常のCNNフィルターが入力行列の連続領域に適用され、連続スライディングが畳み込みに使用されます。拡張されたCNNは、このフィルターに拡張幅を追加し、入力マトリックスに作用すると、すべての拡張幅の中央にある入力データをスキップします。フィルター自体のサイズは変更されないため、フィルターはより広い入力マトリックスのデータを取得します。 「拡大」したようです。

特に使用すると、膨張した幅は、レイヤーの数が増えるにつれて指数関数的に増加します。このように、層の数が増えると、パラメーターの数は線形に増加しますが、受容野は指数関数的に増加し、すべての入力データをすばやくカバーできます。

図7:idcnnの概略図

図7から、受容野は指数関数的に増加していることがわかります。元の受容野は中央の1x1領域です:

(A)図では、元の受容ドメインが1のステップで拡散され、8つの1x1領域が取得され、サイズが3x3の新しい受容ドメインが構成されます。

(B)ステップサイズ2の図の拡散の後、前のステップ3x3の受容野は7x7に拡大されます。

(C)図では、ステップサイズが4の拡散の後、元の7x7受容野は15x15受容野に拡大されます。各レイヤーのパラメーターの数は互いに独立しています。受容野は指数関数的に拡大しますが、パラメーターの数は直線的に増加します。

テキストに対応して、入力は1次元ベクトルであり、各要素は埋め込み文字です。

図8:最大拡張ステップサイズが4のidcnnブロック

IDCNNは、入力文の各単語のロジットを生成します。これは、biLSTMモデルの出力ロジットとまったく同じで、CRFレイヤーに参加し、Viterbiアルゴリズムを使用して注釈結果をデコードします。

CRF層をbiLSTMやIDCNNなどのネットワークモデルの最後に接続することは、シーケンスのラベル付けの非常に一般的な方法です。biLSTMまたはIDCNNは各単語の各ラベルの確率を計算し、CRF層はシーケンスの遷移確率を導入し、最後に損失を計算してネットワークにフィードバックします。

3.実用化

3.1コーパスの準備

埋め込み:中国語のウィキペディアコーパスを選択して、単語ベクトルと単語ベクトルをトレーニングします。

基本コーパス: 1998年に、People's Daily注釈付きコーパスを基本トレーニングコーパスとして選択します。

追加コーパス: 98コーパスが公式コーパスであり、その権限とラベル付けの正確性が保証されています。ただし、完全に人民日報から取得され、長い歴史があるため、エンティティタイプのカバー率は比較的低くなっています。たとえば、新しい会社名、外国人の名前、外国の地名。新しい種類のエンティティを認識する能力を向上させるために、注釈付きのニュースコーパスのバッチを収集しました。それは主に金融、娯楽、スポーツを含み、これらはまさに98コーパスに欠けているものです。ラベル付けの品質の問題により、余分なコーパスを追加できません。98コーパスの約1/4です。

3.2データの強化

深層学習の方法では、通常、大量の注釈付きコーパスが必要です。そうしないと、過剰適合が発生する可能性が非常に高くなり、期待される汎化能力を実現できません。実験で、データ拡張によりモデルのパフォーマンスが大幅に向上することがわかりました。具体的には、元のコーパスを分割し、ランダムに各文のバイグラムとトライグラムを作成し、最後に元の文をトレーニングコーパスとして使用しました。

さらに、収集された名前付きエンティティディクショナリを使用して、コーパス内の同じタイプのエンティティをランダムに置き換えて、強化されたコーパスを取得します。

次の図は、BiLSTM-CRFモデルのトレーニングカーブを示しています。収束が非常に遅いことがわかります。対照的に、IDCNN-CRFモデルの収束ははるかに高速です。

図9:BiLSTM-CRFトレーニングカーブ

図10:IDCNN-CRFトレーニングカーブ

3.3例

以下は、BiLSTM-CRFモデルを使用した予測結果の例です。

図11:BiLSTM-CRF予測の例

4.まとめ

最後に、要約すると、ニューラルネットワークとCRFモデルを組み合わせたCNN / RNN-CRFがNERの主流モデルになりました。CNNとRNNの場合、絶対的な利点はありません。それぞれに独自の利点があります。RNNには自然なシーケンス構造があるため、RNN-CRFがより広く使用されています。ニューラルネットワーク構造に基づくNERメソッドは、多数の人工機能を必要とせずに、深層学習メソッドの利点を継承します。主流レベルに到達できるのは単語ベクトルと単語ベクトルのみであり、高品質の辞書機能を追加すると効果がさらに高まります。少数のラベル付きトレーニングセットの問題については、転移学習と半教師あり学習が将来の研究の焦点になるはずです。

发布了150 篇原创文章 · 获赞 149 · 访问量 81万+

おすすめ

転載: blog.csdn.net/chaishen10000/article/details/103919382