シーケンスラベリング(シーケンスラベリング、タグ付けとも呼ばれます)
NLPhttps://blog.csdn.net/savinger/article/details/89302956の4つの基本的なタスク
シーケンスラベリング(シーケンスラベリング、タグ付けとも呼ばれます)
1.最大エントロピーモデル(最大エントロピーモデルでは、出力は互いに独立しています)
シーケンスのタグ付けの問題には、主にPOSタグ付け、セマンティックロールのタグ付け、および情報抽出が含まれます。
-
品詞(POS)
···品詞タグ付けの目的は、品詞タグの目的は、各単語にカテゴリを割り当てることです。このカテゴリは、名詞、動詞などの品詞タグと呼ばれます。等 品詞のタグ付けは、非常に典型的なシーケンスのタグ付けの問題です。
情報抽出(IE)
情報抽出システムは、さまざまな非構造化/半構造化テキスト入力(ニュースページ、製品ページ、マイクロブログ、フォーラムページなど)を処理し、複数のテクノロジー(ルール手法、統計手法、知識マイニング手法など)を使用します。さまざまな指定された構造化情報(エンティティ、関係、製品レコード、リスト、属性など)を抽出し、これらの情報をさまざまなレベル(知識の重複排除、知識のリンク、知識システムの構築など)で統合します。
抽出される情報の種類に応じて、情報抽出の現在のコア研究コンテンツは、固有表現抽出(NER)、関係抽出(関係抽出)、イベント抽出、および情報統合(情報統合)に分けることができます。
(1)固有表現抽出(NER)
固有表現抽出の目的は、人物名、地名、組織名、固有名詞などのタスクを含む、テキスト内の指定されたカテゴリのエンティティを識別することです。
固有表現抽出システムは通常、エンティティ境界認識とエンティティ分類の2つの部分で構成されます。エンティティ境界認識は、文字列がエンティティであるかどうかを判断し、エンティティ分類は、識別されたエンティティをさまざまな所定のカテゴリに分類します。
名前付きエンティティの認識の主な問題は、不規則に表現され、トレーニングコーパスが不足しているオープンドメインの名前付きエンティティカテゴリ(映画や曲の名前など)にあります。
以下に示すように:名前の認識
以下に示すように:組織名の認識
固有表現抽出
困難。。。
(1)中国語のテキストには、英語のように単語の境界マークとしてスペースがなく、「単語」はもともと中国語では非常に曖昧な概念であり、中国語には英語の大文字小文字などの形態的表示がありません。
(2)漢字は柔軟で変更可能であり、文脈のない名前付きエンティティであるかどうかを判断できない単語もあり、名前付きエンティティであっても、異なるコンテキストでは異なるエンティティである可能性があります。
(3)名前付きエンティティには入れ子現象があります。たとえば、「北京大学第三病院」という名前には、組織の名前としても使用できる「北京大学」も含まれています。この現象は、特に組織の名前。深刻
(4)中国語では、「北京医科大学第3病院」、「国立科学技術大学」などの簡略表現が普及しており、「国立科学橋」などの簡略表現で構成される名前付きエンティティもあります。
「-------------------------------」
固有表現抽出はNER認識機能を作成します
処理する
トレーニングデータはどのように見えますか
列C:品詞を示します
。列D:エンティティカテゴリ。Oはエンティティではないことを示し、Bは開始を示し、Iはエンティティの他の部分を示します。(B、I、O表記、B、M、E、Oなどの他の方法があります)
NERレコグナイザーを評価する
NRE法
「--------------------」
BiLSTM-CRFモデル
概略図は次のとおりです。
- まず、文xの各単語は、前述の単語の埋め込みと文字の埋め込みを含むベクトルとして表されます。文字の埋め込みはランダムに初期化され、単語の埋め込みは通常、事前トレーニングモデルによって初期化されます。すべての埋め込みは、トレーニング中に微調整されます。
- 次に、BiLSTM-CRFモデルの入力は前述の埋め込みであり、出力は文xxxの各単語の予測ラベルです。
上の図からわかるように、BiLSTMレイヤーの出力は、単語w0などの各ラベルのスコアであり、BiLSTMの出力は1.5(B-Person)、0.9(I-Person)、0.1(B -組織)、0.08(I-組織)および0.05(O)、
これらのスコアは、CRFレイヤーの入力です。
BiLSTMレイヤーによって予測されたスコアをCRFレイヤーにフィードすると、スコアが最も高いタグシーケンスが、モデルによって予測された最良の結果になります。
(CRFに関連する技術は以下に記載されています)
CRFレイヤーがない場合はどうなりますか
上記に基づいて、CRFレイヤーがない場合、つまり、次の図を使用して、BiLSTM名前付きエンティティ認識モデルをトレーニングすることがわかります。
各単語のBiLSTMの出力はラベルスコアであるため、各単語について、予測結果としてスコアが最も高いラベルを選択できます。
たとえば、w0の場合、「B-Person」のスコアが最も高い(1.5)ため、予測ラベルとして「B-Person」を選択できます。同様に、w1のラベルは「I-Person」で、ラベルはw2w_2w2です。は「O」、w3w_3w3のラベルは「B-Organization」、w4w_4w4のラベルは「O」です。
上記の方法では、xの正しいラベルを取得できますが、次の図の例のように、ほとんどの場合、正しいラベルを取得できません。
明らかに、出力タグ「I-OrganizationI-Person」と「B-OrganizationI-Person」は正しくありません。
CRFを使用する理由
CRFはトレーニングデータから制約を学習できます
CRFレイヤーは、予測されたラベルの有効性を保証するために、最終的な制約ラベルにいくつかの制約を追加できます。これらの制約は、CRF層がトレーニングデータから自動的に学習することです。
制約は次のとおりです。
- 文の最初の単語のラベルは、「I-」ではなく「B-」または「O」である必要があります。
- 「B-label1I-label2I-label3 I -...」では、label1、label2、label3 ...は同じ名前のエンティティラベルである必要があります。たとえば、「B-Person I-Person」は有効ですが、「B-PersonI-Organization」は無効です。
- 「OI-label」が無効です。名前付きエンティティの最初のラベルは「B-」で始まる必要がありますが、「I-」で始まる必要はありません。つまり、「OB-label」のモードである必要があります。
- …
これらの制約により、無効な予測ラベルシーケンスが大幅に削減されます。
CRFレイヤー
CRF層の損失関数には、2種類のスコアがあり、これら2種類のスコアがCRF層の重要な概念です。
1起動スコア
最初のスコアは起動スコアであり、BiLSTMレイヤーから取得できます。図2.1に示すように、w0はスコア1.5のB-Personとしてマークされています。
フォローアップの説明の便宜上、次の表に示すように、各ラベルにインデックスを付けます。
ラベル | インデックス |
---|---|
B-Person | 0 |
I-Person | 1 |
B-組織 | 2 |
I-組織 | 3 |
O | 4 |
xi、yjを使用して放出行列を表します。ここで、iはi番目の単語を表し、yjはラベルインデックスを表します。たとえば、図2.1によると、
この式は、w1w_1w1をB-Organizationとしてマークする確率が0.1であることを意味します。
2転送スコア
具体的なリファレンス:LSTM + CRFモデルのCRFレイヤーの原則とコードの理解 https://www.cnblogs.com/luckyplj/p/13433397.html
3.CRF損失関数
(2)関係抽出
関係抽出とは、テキスト内のエンティティ間の意味関係を検出および認識し、同じ意味関係を表すメンションをリンクするタスクを指します。
関係抽出の出力は通常トリプル(エンティティ1、関係カテゴリ、エンティティ2)であり、エンティティ1とエンティティ2の間に特定のタイプのセマンティック関係があることを示します。
たとえば、「北京は中国の首都、政治の中心地、文化の中心地」という文で表現された関係は、(中国、首都、北京)、(中国、政治の中心地、北京)、(中国、文化の中心地、北京)として表すことができます。 )。
関係抽出には通常、関係検出と関係分類の2つのコアモジュールが含まれます。関係検出は、2つのエンティティ間に意味関係があるかどうかを判断し、関係分類は、意味関係を持つエンティティペアを事前に指定されたカテゴリに分割します。
一部のシナリオおよびタスクでは、関係抽出システムに関係検出モジュールが含まれている場合があります。このモジュールの主な目的は、エンティティとエンティティ間の意味関係のタイプを検出することです。
たとえば、個人と会社の間には、従業員、CEO、CTO、創設者、会長などの関係カテゴリがあることがわかります。
(3)イベント抽出
イベント抽出とは、非構造化テキストからイベント情報を抽出し、それを構造化された形式で提示するタスクを指します。
たとえば、「毛沢東は1893年に湖南省湘潭で生まれました」という文から、イベント{タイプ:誕生、人物:毛沢東、時間:1893、出生地:湘潭、湖南}を抽出します。
イベント抽出タスクには通常、イベントタイプの識別とイベント要素の入力という2つのサブタスクが含まれます。
イベントタイプの認識は、文が特定のタイプのイベントを表すかどうかを決定します。
イベントタイプは、イベントが表すテンプレートを決定し、イベントのタイプが異なれば、テンプレートも異なります。
たとえば、出生イベントのテンプレートは{人、時間、出生地}であり、テロ攻撃イベントのテンプレートは{場所、時間、攻撃者、犠牲者、負傷者の数など}です。
イベント要素とは、イベントを構成する主要な要素を指します。イベント要素の識別とは、それらが属するイベントテンプレートに基づいて対応する要素を抽出し、正しい要素タグでラベル付けするタスクを指します。
(4)情報統合
エンティティ、関係、およびイベントは、単一のテキストでさまざまな粒度の情報を表します。
多くのアプリケーションでは、さまざまなデータソースやさまざまなテキストからの情報を統合して意思決定を行う必要があり、情報統合テクノロジーの研究が必要です。
情報抽出研究における情報統合技術には、主に共参照解決技術とエンティティリンク技術が含まれます。
共参照解決とは、同じエンティティ/関係/イベントのさまざまな言及を検出し、それらをリンクするタスクを指します。たとえば、「ジョブズは、アップルの創業者の1人であり、アップルの浮き沈みを何十年も経験してきました。 「andriseandfall」というフレーズの「Jobs」と「he」は同じエンティティを指します。
エンティティリンクの目的は、エンティティ名が指す実際のエンティティを特定することです。たとえば、前の文で「Apple」と「Jobs」を識別することは、現実の世界でそれぞれAppleとそのCEOのSteveJobsを指します。
次のように:軍事用語情報の抽出
現在、自然言語処理におけるシーケンスラベリングの主な研究方法には、確率的グラフモデル(隠れマルコフモデル(HMM)、条件付き確率場(CRF))およびニューラルネットワーク(主流のソリューションは一般にbi-LSTM)+ CRFが含まれます。 SVM + AdaBoostは、初期の自然言語処理の研究にも使用されました)
隠れマルコフモデル(HHM)
確率的グラフィカルモデル(確率的グラフィカルモデル)の典型的な代表としての隠れマルコフモデル
(確率的グラフィカルモデルは、一般にベイジアンネットワーク(ベイジアンネットワーク、有向非巡回グラフで表される変数間の因果依存関係)とマルコフネットワーク(マルコフネットワーク、変数間の)に分けることができます。これは無向グラフで表されます。)これは、最も単純な構造の動的ベイジアンネットワークです。
1.マルコフモデル
マルコフモデルは主に、システム状態間の遷移プロセスを記述するために使用されます。つまり、システムは時間または空間にわたってある状態から別の状態に遷移します。
マルコフ過程では、時間tでのシステムの状態は、前の時間、つまりt -1にのみ関連し、前の状態とは関係がないと想定されます。
モデルには主に3つの要素が含まれています。
- S:モデル内の限られた状態のセット。
- Π:初期状態空間の確率分布。
- A:状態遷移確率行列。
図。マルコフモデルトリプル
マルコフモデルにはいくつかの興味深い結論があります。たとえば、長期間の後、つまり多くの状態遷移の後、初期状態に関係なく、最終状態は同じ結果に収束します。(つまり、最終状態は状態遷移行列にのみ関連し、初期状態には関連しません)
2.隠れマルコフモデル
目に見えるものの変化は、背後に隠された固有の本質的な法則を明らかにします。そのため、モデルは隠れマルコフ(状態シーケンスは不明)と呼ばれます。
(1)HMM評価の問題
上記のセクションはでたらめです
a。フォワードアルゴリズム
フォワードアルゴリズムの動的図のURL = https://pic3.zhimg.com/v2-aab75a9c0df890ef11db2c27e672baf4_b.webp
b。後方アルゴリズム
後方アルゴリズム図
後方アルゴリズムは前方アルゴリズムに似ており、その時間計算量もO(N ^ 2T)です。
###ここから元のテキストを読むことができます。一度要約したので、時間を無駄にしませんhttps://zhuanlan.zhihu.com/p/50184092?from_voters_page=true
(2)HMMデコードの問題
ビタビアルゴリズム(動的計画法)
(3)HMMパラメータ学習
隠れた馬モデルの主なパラメーターは、2つの行列A、Bです。A:隠れた状態の遷移確率行列とB:特定の状態での観測値の確率分布。
シーケンスラベリングにおける隠れマルコフモデルの適用
分詞
品詞のタグ付け
フレーズ認識、音声認識
条件付き確率場モデル(CRF)
確率場。確率場は、確率変数のセットと見なすことができます(この確率変数のセットはすべてサンプル空間から取得されます)
これらの確率変数の間には一定の相互依存関係があるかもしれません。対応する空間の値を特定の分布に従って各場所の確率変数にランダムに割り当てる場合、全体が確率場と呼ばれます。
マルコフセックス。マルコフ性とは、確率変数のシーケンスを時系列で展開すると、時間N + 1での変数の分布特性は、時間Nでの変数の値にのみ関連し、での変数の値に関連することを意味します。時間N変数の値は関係ありません。
マルコフ性を満たすランダム場をマルコフ確率場(MRF)と呼びます。
1.最大エントロピーモデル(最大エントロピーモデルでは、出力は互いに独立しています)
2.条件付き確率場(CRF)
固有表現抽出でのCRFのアプリケーションでは、モデル入力は単語シーケンスであり、出力は単語タグです。
ニューラルネットワークシーケンスアノテーションモデルのアーキテクチャは次のとおりです
簡単な例を使用して、ランダムフィールドの概念を説明します。複数の既存の位置で構成される全体。特定の位置に特定の分布に従って値がランダムに割り当てられる場合、全体はランダムフィールドと呼ばれます。
例として名前認識を行う場合、次のルールが定義されていると仮定します。
ラベル | 意味 |
---|---|
B | 現在の単語は、entityという名前の地名の最初の単語です |
M | 現在の単語は、地名命名エンティティの中間単語です |
E | 現在の単語は、entityという名前の地名の終了単語です |
S | 現在の単語だけでエンティティという名前の地名を構成します |
O | 現在の単語は、名前付きエンティティまたは地名の一部ではありません |
n文字からなる文があり、各文字のラベルは、既知のラベルセット{"B"、 "M"、 "E"、 "S"、 "O"}で選択されます。ラベルを選択すると、ランダムフィールドが形成されます。
いくつかの制約が追加された場合、たとえば、すべての文字のラベルが隣接する文字ラベルにのみ関連している場合、それはマルコフ確率場問題に変換されます。
マルコフ確率場にXXXとYYYの2つの変数があると仮定すると、XXXは一般に与えられ、YYYは与えられたXXX条件下での出力です。この例では、XXXは文字、YYYはラベル、P(Y∣X)P(Y | X)P(Y∣X)は条件付き確率場です。
この構造は、一般に線形チェーン条件付き確率場と呼ばれます。これは次のように定義されています。
X =(X1、X2、X3、⋅⋅⋅、Xn)X =(X_1、X_2、X_3、···、X_n)X =(X1、X2、X3、⋅⋅⋅、Xn)そして、Y =(Y1、Y2、Y3、…、Yn)Y =(Y_1、Y_2、Y_3、…、Y_n)Y =(Y1、Y2、Y3、…、Yn)はすべて線形で表されますチェーン確率変数シーケンス、与えられた確率変数シーケンスXの条件下で、確率変数Yの条件付き確率分布P(Y | X)が条件付き確率場を構成し、マルコフ性を満たします:P(Yi∣X、Y1、Y2 、⋅⋅⋅、Yn)= P(Yi∣X、Yi−1、Yi + 1))P(Y_i | X、Y_1、Y_2、···、Y_n)= P(Y_i | X、Y_i-_1、 Y_i + _1))P(Yi ∣X、Y1、Y2、⋅⋅⋅、Yn)= P(Yi ∣X、Yi -1、Yi +1))は
P( Y | X)は、線形チェーンの条件付き確率場です。
言い換えると、線形モデルは、両側のノードのみが隣接しているため、両側のノードの影響のみを考慮します。
RNNやLSTMなどのネットワーク構造の紹介については、https://zhuanlan.zhihu.com/p/50915723を参照してください。
シーケンスラベリングにおけるCRFおよびLSTMモデルの長所と短所は何ですか?https://www.zhihu.com/question/46688107?sort=created
RNN、LSTMからエンコーダー-デコーダーフレームワーク、アテンションメカニズム、トランスフォーマーhttps://zhuanlan.zhihu.com/p/50915723