[NLP] ELMoは理解する

1. ELMoによって解決される問題:

CBOW、SkipGram、NNLM、その他のモデルによってトレーニングされた単語ベクトルは固定されており、異なるコンテキストで異なる意味を持つ同じ単語を満たすことができません。コンテキスト内の単語の単語ベクトルを動的に学習する必要があります。

2.多義に対する可能な解決策:

a。各単語に複数の単語ベクトルを割り当てる

b。最初に修正された単語の単語ベクトルを学習し、特定のコンテキストに適用されると、対応する調整を行います

c。ELMo(特定の埋め込みベクトルのベクトルを取得しなくなりましたが、2段階のアプローチです。最初の段階は、事前トレーニング済みの言語モデルから、コンテキストに従ってトレーニングされた言語モデルを取得することです。対応する単語の埋め込みを新しい特徴として抽出すると、下流のタスクに追加されます。最初の段階で取得された中間の埋め込みが削除されると、効果が低下します。

d。バート

3. ELMoのコアアイデア(深い文脈化された単語表現):

(1)コンテキスト化とは、LSTMを使用した、コンテキストおよび言語モデル(言語モデル)に基づくトレーニング方法。

(2)ディープとは、ディープラーニングに基づく階層表現を指します。各レベルでキャプチャされる機能は、単純なものから複雑なものまでさまざまです。

        浅いレイヤー(単語の特徴)->中間のレイヤー(構文の特徴)->深いレイヤー(意味の特徴

上記の2つのポイントに基づいて、Deep BI-LSTMモデルが使用されます。

4. ELMoの数式

ELMoは、biLMの中間層表現のタスク固有の組み合わせです。各トークンtkについて、LレイヤーbiLMは2L + 1表現のセットを計算します

 

ダウンストリームモデルに含めるために、すべてのbiLMレイヤーのタスク固有の重みを計算します。

(1)なぜ各単語に2L + 1の表現があるのですか?

合計L層があり、各層は2つのLSTMを使用して、左から右および右から左の2方向にLMベースのトレーニングを実行するため、2Lに元の単語の単語ベクトルを加えたものになります。

(2)ダウンストリームタスクで重み付けされた重みを取得するにはどうすればよいですか?

トレーニングを通じてウェイトを取得します。

元の記事を26件公開 13 件を獲得 7292回

おすすめ

転載: blog.csdn.net/original_recipe/article/details/104928011