最近読んで、非常に良い説明のword2vecの論文である「word2vecパラメータの学習を説明します」。、私の世代と思考レベルと陰性サンプルソフトマックス単語ベクトルの、より直感的な理解を助けるため、以下の問題のより深い理解を持っています:
- word2vecセマンティック情報は近い高次元空間へのワードベクトルに対応するような類似の意味的な単語として単語ベクトルに符号化することができる理由
- CBOWとスキップ・グラム相違点と類似点
- なぜレベルソフトマックス紹介し、彼らがトレーニングを最適化することができますだけでなく、原因と負のサンプルを
1袋連続-の-Wordのモデル
1.1ワンワードコンテキスト
CBOWのアイデアは、ほとんどがコンテキストのみ言葉と仮定し、指定されたコンテキストワードセンターを予測することです。
xが入力ワードれるW Iベクター、onehot対応W VXNは、状態 VXN行列をW ' NXVが前記NXV行列であり、Vは、語彙のサイズであり、Nは、ワードベクトルの次元であり、Wがそれぞれ行ベクトルであります単語ベクトルを学ぼうとしてword2vec。
以来、xは、onehotのベクトルであり、Hの事実W I対応するワードベクトル
$$ \左[\ {行列} 1&2&3 \\ 4&5&6 \\ 7&8&9 \端{行列} \権利を始める] $$
$$ \左[\ {行列} 1&2&3 \\ 4&5&6 \\ 7&8&9 \端{行列} \権利を始める] $$