テキストベクトル(理論セクション)

この記事では、一般的なテキスト表現モデル、単語のモデル(BOW)のワンホット、バッグ、TF-IDF、N-gramとWord2Vecを説明します

離散表現

図1に示すように、ワンホットエンコーディング

ワンホット符号化方式が使用されている、我々は、量子化された文章様式の、実質的にステップワンホットエンコーディングを使用することができます。

  • 建設テキスト辞書の単語の後
  • 言葉のためのワンホットエンコーディングの

ジョンは映画を見るのが好き。メアリーは、あまりにも好き

ジョンはまた、サッカーの試合を観戦するのが好き。

次のように上記2つの文は、単語辞書、辞典後に構成することができる、キーは、辞書単語、IDの値であります

{ " ジョン":1、" 好き":2、" ":3 " 時計":4、" 映画":5、" ":6、" フットボール":7、" ゲーム":8、" メアリー":9、" あまりにも:10}

我々は、0と1のワードを表すがあるかどうかを定量化するために各ワードのID値に基づくことができます。

ジョン 
[1 、0、0、0、0、0、0、0、0、0]
すぎる 
[0、0、0、0、0、0、0、0、0、1]

ワンホット・エンコーディングと明らか短所

  • 高次元ここでは短い2つのワードを有し、各ワードは既に10次元ベクトルであり、コーパスの増加に伴って、寸法は、次元の呪いその結果、ますます大きくなります
  • スパース行列ワンホットエンコーディングを用いた別の問題は、スパース行列でも、上記からわかるように、すべての単語ベクトルが他の次元にのみ一次元の数値であり、0であります
  • 私たちは、セマンティクスを保護することはできませんこのようにして得られた結果は、位置情報の文中の予約語、「私はあなたを愛して」との結果が違いはありません定量化するために、「私はあなたを愛して」することはできません。

図2に示すように、単語の袋(BOW)モデル

単語モデルの袋(バッグ・オブ・ワードモデル、BOW)、弓模型は、その文書のために、その語順と文法、構文およびその他の要因にもかかわらず、それは単にいくつかの単語の集合として、文書中の各ワードを仮定しますそれは独立したの登場です、他の言葉に依存しないが表示されます。

ジョンは映画を見るのが好き。メアリーは、あまりにも好き

ジョンはまた、サッカーの試合を観戦するのが好き。

文書のセットとして上記の2つの文が、以前のように、以前と同じ例を使用して、すべての単語は辞書を構築し、(ケースと句読点を無視して)この文書に表示されます一覧表示されます

{ "ジョン":1、 "好き" 2 "から" 3 "時計":4、 "映画":5、 "も":6、 "フットボール":7、 "ゲーム":8、 "メアリー ":9、 "あまりにも":10}

その後の文章は、定量化するために、同じ大きさと辞書サイズは、値は私の言葉は、この文の頻度で表示されたディメンションのIDを表し、

最初のテキスト 
[1、2、1、1、1、0、0、0、1、1 ]
 2番目のテキスト 
[1、1、1、1、0、1、1、1、0、 0]

最初のテキストの量子化結果[1、2、1、1、1、0、0、0、1、1]を、例えば、第2の次元における図2に示すように、単語IDが最初に、2を好きですテキストが2回表示するので、値2は、第2の次元であります

このように、非常に大規模な次元につながるワンホットエンコーディングとは異なり、だけでなく、独自の持つ欠点を

  • セマンティクスを保護することはできません:位置情報は、文中の単語を予約することができない、「私はあなたを愛して」と、この方法はまだ差があるんで結果を定量化するために「私はあなたを愛して」。これら2つのテキストのセマンティックコントラスト「私は北京が好きではありません」「私は北京が好き」と、モデルによって得られた結果の使用は、彼らがテキストに似ていることを信じることができました。
  • 高次元かつスパース:コーパスが増えるので、必然的に次元の数を増加させる場合は、テキストで表示されていない単語は疎行列につながる、増加します

3、TF-IDF

TF-IDF(用語頻度-逆文書頻度)は、一般的に、重み付けに使用される情報検索およびデータマイニング技術です。意味用語頻度TF(用語頻度)、I DF意味逆文書頻度指数(逆文書頻度)。

それがファイルに表示される回数などの単語の重要性が増加に比例しているが、周波数がコーパスでの出現に反比例するようにも減少します。回以上の単語が記事に表示され、この記事を表現する方ができるより少ない数は、すべての文書に登場しました。

次のようにTF-IDFの式は:

 

 TF(tは、D)を表す  言語トンを 中に  文書dの周波数表示され、IDF(t)は逆文書頻度の指標である、それは測定することができますワードトン  この文書と区別の他の文書の重要性のために。次式IDF、分母は分母を回避するために、1だけインクリメントされる0であります

例えば、10文書、サル、および9で、その後、単語の人の記事を表示されない単語は、10件の記事は「口」を持つ「テール」について、人々について、このの「尾」でありますこれらの記事では非常に差別の言葉。また、容易に式の視点から見ました。ベース10において、次に、IDF(尾)= 0.70、IDF(口)= -0.04、 "尾部" 点より高い重要性を示すが、それは差別有します。

彼は以前に述べた欠点がまだ存在し、それはまだ文中の単語間の位置関係を保持することはできません。

4、Nグラム

4.1原理

N-gram言語モデルは、文字の文字列を与えられ、次の単語が発生する可能性が最大のもので、ということであると思いましたか?たとえば、大きな可能性を「食べる」が、非常に小さく、「取得」の可能性に続いて、「あなた今日」、。

いうユニグラムN = 1、N = 2がバイグラムに言及される場合、N = 3は、トライグラムのと呼ばれ、2つに依存しているから、すなわち、次のワードが仮定されるでバイグラムのが前面に表示されるように、ワード依存の前に表示されるように、想定されている次の単語をように単語、そのトライグラム、と。

以下のテキストではたとえば、

あなたは私を助けて

私は助けることができます

これは次のようにバイグラム:

あなたは私を助けて、助けて
あなたを助ける、私は助けることができます

同様に、私たちは辞書を構築することができます

{ " あなたは助ける":1、" 私を助けて":2、" 私は助けることができる":3を、" 助けあなたを":4}

定量化する結果は以下のように表すことができます。

最初のテキスト 
[1、1 、0、0]
2番目のテキスト 
[0、0、1、1]

仮定に基づいてNグラム:n番目のワードは、(隠れマルコフの仮定の中でもある)は、任意の他の用語と関連していないが、以前のN-1ワードに関連する表示されます。文全体の確率は、各ワードの出現確率に相当する下記式の生成物を表示されます。

上記式は、計算するのは容易ではない、引用さ入马尔科夫仮説を、次いで、式は次のように書くことができます。

状態空間内のある状態から別の状態に遷移するランダムなプロセスを経てマルコフ連鎖(マルコフ連鎖)。「なしメモリ」がないために必要なプロセスの性質:次の状態の確率分布のみを以前の状態にかかわらず、現在の状態によって決定することができます

 具体的には、ユニグラムのために、そこに

バイグラムのために、そこに

  トライグラムで、そこ

 N-グラムの単語の順序、より完全な情報の量を考えます

しかし、欠点は、 Nが増加すると、語彙の急速な拡大、データの多数の疎な問題となります。

5、要約

問題があるので、一般的なNLPの問題のためのテキスト情報の離散的な表現は、問題を解決するために使用することができますが、より高精度要求のためのシーンは適切ではありません。

  • 私たちは、単語ベクトルとの間の関係を測定することはできません。
  • 寸法の成長と拡大のコーパスを語彙。
  • コーパスとnグラムの単語列は指数関数的にさらに速く拡大し成長します。
  • テキストを表現する離散データが失われた情報が得られ、データスパースネスの問題をもたらすでしょう、と私たちは人生を理解する情報は同じではありません。

第二に、分散表現

科学者たちは、モデルの精度を向上させるために、彼は、分散型テキスト情報を表現する方法を発明しました。

単語を表現する単語の近傍に他の言葉では、これが最も創造的なアイデアと最先端の統計的自然言語処理の一つです。科学者たちは、この方法のオリジナル言語は人々に基づいて発明され、正確な意味情報を形成するために一緒に、周囲の単語語彙によって単語を考えます。同様に、のようなあなたは、人を知りたい場合は、それらの周りの人たちが一緒に来るためには何らかの共通点を持っているので、彼の周りの人々が理解することができ、グループ内の人のように魅了しています。

1、共起行列

名前が示すように共起行列は、意味の共起で、共起行列のワード文書は、主に話題(トピック)を見つけるために使用されるなどLSAなど、話題のモデルを、。

現地語の単語共起行列ウィンドウは、たとえば、構文と意味情報を掘ることができます。

私は深い学習が好きです。
私はNLPが好き。
私は飛んで楽しみます。

「NLPのような」{「私が好き」、「深い学習」「深いように」、「私が楽しむ」、「飛んで楽しむ:つ以上の単語、スライディングウィンドウのセット(対称窓)2、辞書が得られることがあります。 "" 私は}」が好きです。

私たちは、共起行列(対称行列)を得ることができます:

各グリッドの中央に辞書に語句の行と列が表すしばしば一緒に生じ、それは共起の特徴を具体化します。例えば、として:1「私が好き」、最初の文で2表示され、2回の合計が起こるので= 2。「私が好き」2で、対称窓を指し、

問題:

  • 辞書のサイズのベクトル次元線形に増加。
  • 消費の全体の辞書を格納するためのスペースが非常に大きいです。
  • そのようなテキスト分類モデルなどの一部のモデルには、スパース性に直面するだろう。
  • モデルは、コーパスのすべての新しいコピーに来て、あまり安定していますが、安定性が変化します。

2、Word2Vec

上げ2013年Word2Vec Googleがモデルを組み込み、最も一般的に使用される言葉の一つです。Word2Vecが実際に浅いニューラルネットワークモデルは、それは2つのネットワーク構造を持っている、あるCBOWは、連続単語の袋(言葉のバッグ継続)スキップ-グラム

2.1、CBOW

CBOWを3層ニューラルネットワークであり、文脈によって特徴付けられる、入力電流の単語の予測出力が知られていますコンテキスト確率モデルワードによって予測CBOW中間単語は中間ワードyとして、ウィンドウに表示され、入力xとウィンドウ内の他の用語は、Xがを介して入力されたワンホットエンコードされ、次いで、隠れ層で加算操作は、最終的に活性化関数ソフトマックスを介して、各単語の確率を計算することができる生成され、次のタスクを最大にし、重み行列を計算するためにコーパス内のすべての単語を生成する全体の確率を作る、重い重みのニューラルネットワークを訓練することは、テキスト表現であります結果語ベクトル。

一例として、我々は次のテキストを持っています

私はコーヒーを毎日飲みます

日常、我々入力I、ドリンクと仮定し、我々は、コーヒー、出力確率の最大を作るためにニューラルネットワークを訓練しました。図に示すように、まず、私たちは、言葉の元のテキストのワンホットエンコードされた表現を使用しています。

 

初期入力重み行列Wと出力重み行列W '重み行列は、ベクトルWを乗算用いて、ワンホット符号化された、ユニークなベクトルVとすることができ、ワンホットエンコード位置1が取り出される対応し、W対応する列、両者が同一でない限り、そうでなければ得られたベクターは、同じではないであろう。

ここでは、3つの入力値を有し、和を平均ベクトルを乗じたW三つの入力値は、ベクトルの隠れ層を得るために

   出力ベクトルを得るために重み行列W」を乗じた中間層の出力ベクトル

 出力ベクトルはソフトマックスは、出力確率を得るのですか

 2.2、スキップ - グラム

スキップ - グラムCBOWとコントラストを、すなわち、現在の単語が予測コンテキスト、知られています。コンテキスト用語を予測する確率モデルは、ソフトマックスは、隠れ層の活性化関数を介して接続された確率を予測することは依然として窓yとしてすなわち、換言すれば、現在のワードxと現在の単語とのウィンドウに表示されます。

次の図は、例を示し、我々は文を選択し、「速い茶色のキツネは、のろまなイヌに飛びかかった」、私たちは、ウィンドウサイズが2(WINDOW_SIZE = 2)、私たちは言葉の組み合わせの前と後の入力条件との言葉に2つの入力を言っている設定学習サンプルとして。以下、青色ボックスは、ウィンドウ内の単語を表す内に配置され、入力された単語を表します。

まず、例えば、入力された単語が、単語の組合せが付いていない最初は、言っている、そしてこれだけ後者の二つの単語が組み合わされます。

その前にすると素早く入力、1つの単語だけ、唯一の3つの組み合わせの合計ように。

4つの組み合わせがあり、ここからのように、最初の茶色からは、フロントは、二つ以上の単語を持っています。

 

 私たちのモデルは、各単語が出現する回数の統計から学習されます。たとえば、私たちのニューラルネットワークは、より多くの類似した(「コーラ」、「ペプシ」)などの訓練サンプルを得ることができ、そして(「コーラ」、「醤油」)のためにこの組み合わせはほとんど見られませんでした。私たちはトレーニングモデルを完了するとそこで、入力と出力結果の「ペプシ」内のソース」「よりも高い確率」と単語「コーラ」を与えられました。

 2.3、加速の最適化

そこ階層ソフトマックス(ソフトマックスレベル)と、次のリンクを参照して、陰性検体(陰性試料)は、2つの加速度法、

 

 

 

 

参考文献:

https://github.com/mantchs/machine_learning_model/tree/master/Word2Vec

https://www.jianshu.com/p/f8300129b568

https://blog.csdn.net/weixin_43112462/article/details/88669902

https://blog.csdn.net/lxg0807/article/details/78615917

https://www.cnblogs.com/bep-feijin/p/9430164.html

https://blog.csdn.net/yu5064/article/details/79601683

https://www.jianshu.com/p/471d9bfbd72f

https://www.zhihu.com/question/44832436

http://www.dataguru.cn/article-13488-1.html

おすすめ

転載: www.cnblogs.com/dogecheng/p/11470196.html