NLP(6):ワード埋め込み(挿入ワード)

参考:

https://www.zhihu.com/question/45027109/answer/129387065

 

A、単語の埋め込みを行っています

ワンホット符号化に比べて、我々は単語を表すために、より分散表現(分散表現)を使用したいと考え、単語を表します。ワンホットエンコーディングのスパース性は、そのような車やバス等など品詞、意味情報、を含む、単語間の類似度を把握することは困難であると判断するので、多かれ少なかれ類似性は、ワンホットエンコーディングは測定することは困難です。数百密ベクトルの次元にマッピングされ、スパースベクトルの数十万まで、スルー埋め込んだ後、密ベクトルの各次元の値は、意味のあると考えることができます。
我々はテキストを取得した後、ワンホットエンコーディングあったの言葉は、私たちが層を埋め込む飼料にそれを置くことができ、その主な機能は、学ぶことです 分散言葉表現 と非常にまばらなワンホットを言葉は、次元削減をコードしていました。

第二に、単語を訓練する方法を分散表現

フォローする原則がある場合:言葉は、文脈で意味を作ります。それは言葉の表現、分散訓練方法の2種類を生じた:CBOWモデルとスキップ-gramモデルは、これらの2つのモデルの最終的な出力レベルを私たちは、単語ベクトル、意図的なの種類を取得したい「密」ではない、ではありませんワインの感覚。

CBOW:現在の用語の確率を予測するために、文脈に応じて、および重量は、現在の単語の発生確率に影響を与える権利のコンテキスト内のすべての単語と同じです。トレーニング入力CBOWコンテキストモデルは、単語、出力層ニューロンの語彙のサイズに対応する単語特徴ベクトル関連語です。

スキップグラム:特徴によれば、単語が文脈語の確率を予測するように見えます。トレーニング入力は、特定の単語、出力層ニューロンの語彙サイズのワード特徴ベクトルです。 

単語の確率の出力ではなく、あなたが欲しいベクトル語のようです。そのような文を「私はリンゴを食べたい」の場合、掘りモデルCBOWは、特徴的な単語を入力し、入力訓練されたネットワークとして残っている言葉が、食べて、私たちの目標は、出力層の大き用語集でこのタスクに到達した場合は、これらのノードは、最大の確率を食べに対応するノードは、我々は、単語のモデルのこの時点では良い取引を発見しました。
隠れ層 - - 層入力した場合、この出力層ネットワークモデル、我々は、入力ベクトルonehot明らかに重み行列Wを計算するの一種であり、トランスポート層、出力層に演算結果を隠蔽出力層と、他のマトリックスを通ります最終的確率を得るために、約ソフトマックス計算。我々は全体的な浚渫特徴語が、このモデルは、セマンティクスを取り扱うことが可能であることを示し、このモデルを食べる予測することができるので、我々は重み行列Wを訓練し、それは結果を乗じたベクトルからなる行列onehotことを意味します、密な単語ベクトルとして使用することができ、他のタスクを実行するために取得します。
言い換えれば、私たちの目標は、この目標を達成するために、事実の後に、一見特徴語を得る、または単語のコンテキストを取得することで、私たちはただ一つ重み行列のみたいです。
単語の初めから疎ベクトルであるのでWその結果、Wを乗算することにより、行または列の値です。Wは、のサイズである場合に 隠された層の数×N 疎ベクトルの長さを形成するために、入力された単語の後に得られた緻密ベクトルの長さは、層を隠さなければならない、むしろ単語の長さの始まりよりも、これは 次元削減
 
 



おすすめ

転載: www.cnblogs.com/liuxiangyan/p/12526392.html