word2vecオン()

1 word2vec

自然言語処理のタスクのほとんどでは、テキストデータの大規模な量がフォローアップするために、情報を発見するためにコンピュータを渡す必要があります。しかし、今のコンピュータは、したがって、テキストを直接分析することができない値のみを扱うことができ、数値データのためのタスクを処理する自然言語の重要な部分に、元のテキストデータ。

Word2vec、関連するモデルのグループは、単語ベクトルを生成するために使用されます。テキスト言語学の言葉を再構成するために訓練するために使用浅いダブルニューラルネットワークのためのこれらのモデル。----ウィキペディア

:簡単に言えば、word2vecシリーズモデルは、(ここでは特に漢字)であることは、そのような「私は中国を愛し」として、ベクターにテキストに変換されることができ、治療のモデル後、以下の4つのベクトルになることがあり
、(0.12 0.45、-0.3,0.44)、(0.2,0.6,0.7,0.9)、( - 0.76,0.53,0.88、-0.31)、(0.47,0.92,0.66,0.89)、
このベクターは、中国語(用語ベクトルと呼ばれていますまた、ベクトルを呼び出すことができ語)、その後の処理のために、「私は中国を愛し」以上の4つの単語ベクトルに加工されます。
変換はword2vec 2つの古典的なモデルについて話をする必要がある、完成された方法を:.スキップグラムとCBOW、CBOWは次回を再訪、この記事では、スキップ・グラムの紹介でこのだから
、あなたのスキップグラム、上の詳細を:ページを参照することができますhttps://becominghuman.ai/how-does-word2vecs-skip-gram-work-f92e0525def4

2つのモデルの特長

次いで、わずかに異なるモデルの他のスキップグラムを操作する方法、及びベクターを出力ワードにスキップグラムに単語ベクトルを入力することにより、モデルから取得されません。逆に、限りスキップグラムモデルのトレーニングが完了すると、トレーニングに関わるすべての文字が、すでに彼の単語ベクトルを受けていた。つまり、すべての単語がモデル自身でモデルの訓練ベクトルパラメータとして格納されている、あなたが取得したいです単語ベクトルワード、ちょうどいくつかのルールは、モデルパラメータから抽出することができ、次のモデルはとても重要なトレーニング段階です。

3トレーニングプロセス

訓練サンプルを得る3.1

以下のモデルのトレーニングのアイデアは、基本的にされている:最初の所与の各文字ランダムに割り当てられた単語ベクトルを以下のように、その単語は、トレーニングコーパスを得るために、元のサンプル中の、固定された長さを取って、中央の文字として選択されます。

3.2統計的な周波数

統計は、単語と単語の共存センター確率として、テキストアップや単語の中心周波数の周りのダウンに表示されます。

3.3モデルパラメータの調整

ベクター上の指定された単語に基づいて、共存ワードサイズの確率の中心と順番に各ワードについて計算。ほとんどの場合、これは実際の統計のうち、最後のステップは、その確率分布がより現実的であるように、モデルパラメータを調整するために、様々である、それは単語ベクトルの調整パラメータを調整することです。ように何回かした後、各単語は、中央の文字として研修に参加する機会を持っています。トレーニングパラメータが完了した後、それぞれ対応するワードベクトルワードがありました。

4つの備考

トレーニングモデルの完了後、各ワードベクトルは、通常、2つの対応する単語を有する単語は、ベクトルコンテキスト語として単語他の単語は、前者は一般的代表を選択された単語である場合、単語は中心としてワードベクトルであります最後の単語単語ベクトル。

おすすめ

転載: www.cnblogs.com/pythonfl/p/12374289.html