I.はじめに:
1、概念:グローブワード表現方法は、教師なしです。
2、利点:統計情報コーパス、共起行列列車内の唯一の非ゼロ要素を使用しての完全かつ効果的な使用、およびスキップグラムは、いくつかの統計情報コーパスを使用することは非常に有効ではありません。
3、開発プロセス:
単語のベクトル詳細な導出します。https://blog.csdn.net/liuy9803/article/details/86592392
(1)ワンホット。
ベクトルの次元は、語彙に対向する位置に対応する各ワードの残りの寸法が0に設定されている、1であり、全体の語彙のワード長です。
欠点は、次のとおりです。
- 外形寸法は、次元の呪いを受けやすい、あまりにもスパースコーディング、非常に高いです。
- これは、単語と単語、各単語が分離され、乏しい汎化能力との間の類似性を反映していません。
(2)ベクトル空間モデルVSM:
定義:辞書の文書CとDの所与のセットでは、あろう公開文書モデル語一語の袋として表現し、次いでTF-IDFは、各単語の実際の値であるに基づいて算出することにより、
辞書のサイズがD Mであるので、この文書は、M次元ベクトルに変換されるので、単語が文書中の辞書に表示されない場合、単語のベクトルの対応する要素が0であるワードが発生した場合、文書内の単語の対応するベクトル要素の値TF-IDF値のワード。このように、ベクトルとして表された文書を入れて、これはベクトル空間モデル(ベクトル空間モデル)。
そして、文書ベクトルと、それは、文書間のコサイン類似度を用いて算出することができます。
短所:
- TF-IDF onehotに関する情報を追加し、しかし、ベクトル空間モデルは単語(用語)と単語(用語)との間のライブの関係をキャッチしていない、それぞれの用語の間に互いに独立であると仮定されます。いくつかのコンテキスト情報が失われます。
- 実用的なアプリケーションでは、我々はそれがされているので、直接、TF * IDFこの理論モデルを使用していない重量から算出した短いテキストに有利になるように偏った、したがって、いくつかの必要な平滑化を。
TERM1より3倍大きくなるように右TERM2重量(または重要度)タスクフォース:取る例えば、TERM1 3回にDOCAに表示され、TERM2はDOCAで9回出現し、TFを意味する、上記方法に従って計算されます。 、それは実際に三回も重要なのですか?したがって、実際のスコアのLuceneモデル、計算がSQRT(TF)、TFによって即ち平方根、平滑化効果を果たしています。IDFを計算する際に同様に、それは対数ログを取るだけでなく、滑らかにするためです。
言葉は意味論ではおそらく似ているように、ワードベクトル空間モデルの主なアイデアは、同様の文脈で見られています。私たちが見つかった場合たとえば、「コーヒー」としばしば同時に発生する「飲む」、一方で、「お茶」としばしば同時に発生し、その後、私たちはセマンティクスで「コーヒー」と「お茶」を推測することができます「飲む」は類似していなければならないことA。単語ベクトルの次元は、ワードの総数コンテキストの数です。[しかし、高送りの問題の単語の多くの次元数は、それが生成されます場合]
(3)ワードが埋め込みます:
入力としてニューラルネットワークの語彙、低次元のベクトル表現の出力は、その後、最適化パラメータBPを使用します。
単語ベクトル生成ニューラルネットワークモデルは、2つに分かれています。
- 訓練用語ベクトルの1つの目的は、意味論的関係を表すことができる、そのようなword2vecなどの後続タスクのために使用することができます。
- 別の単語ベクトルが副産物として生成され、彼らは、特定のタスクにかかるfastTextとして、単語ベクトルを取得するように訓練する必要があります。
①学習確率分布
Word2Vec:[その出力分布しながら、単語の出現確率です]
手袋:[単語の出現確率の比率がより良い単語を区別することができるが、同時にワードの出現確率に比べ。]
たとえば、私たちは、「氷」と「スチーム」二つの単語を表現したいとします。固体/ Pの蒸気 - - 固体大そして、このような「固体」として無関係な単語を、「蒸気」に関連する「氷」のために、そして、我々はPの氷が期待できます。ガス/ Pの蒸気 - - ガスが少ない同様に、「氷」のためにと、このような、我々はPの氷が期待できる「ガス」としては何の関係もあり、「蒸気」に関連する単語を、持っていません。これとは対照的に、「水」などを同時にかつ「氷」、「蒸気」の言葉に関連し、「ファッション」などを同時にかつ「氷」、無関係な単語を「蒸す」などのために、我々はPの氷を期待することができます - 水/ P蒸気 - 水、Pアイス - ファッション/ P蒸気 - ファッションは1に近くなければなりません。
②目的関数:最小二乗
Word2Vec:[Word2Vec隠された層の活性化関数は、隠れ層の学習は、実際に直線的な関係であることを意味し、使用されていません。]
手袋:[ニューラルネットワークモデルより使いやすく隠れた層]
単語教師なし学習ベクトルは、いくつかの成功したアプリケーションの一つである、利点なしマニュアルのアノテーションコーパスこと、入力、出力として直接標識されていないトレーニングセットテキストワードベクトルは、下流の処理操作で使用することができます。
③利点:
-
- Wordの教師なし学習ベクトルが利点は、いくつかの成功したアプリケーションの一つである手動のタグ付けコーパスを必要としない、直接のトレーニングセットのテキストは単語ベクトルの入力としてマークされていない、出力は下流の処理操作に使用することができます。
- 転移学習のための単語ベクトル:
(1)大規模なトレーニングコーパス語ベクトル(または事前に訓練されたダウンロードされた単語ベクトル)を使用して、
(2)単語ベクトルモデルは、わずか数ラベル付きトレーニングセットの作業に移行するには、
(3)新しいデータで用語ベクトルを微調整します(新しいデータセットが小さい場合、このステップは不要です)。
-
- 減少寸法ワード
ワードは、ニューラルネットワークの入力ベクトルではなく、入力の最初の層であるけれども。第一層は、単語を定量化するために重み行列表現によって乗算され得るワードのワンホット符号化され、そして重みトレーニング段階モデルが更新されます。
第二に、モデル
ワードワード出現:同時生起行列、Xと定義されます。
X-のijは: Wordの表しJは、 Wordで表示されます私の周りの回。