統計的言語モデル
統計 + 言語モデル – 「統計的手法を使用して、人々の発言に関連する次の 2 つのタスクを完了します」
言語モデル = 言語 (人々の言うこと) + モデル (2 つのタスクを完了するため)
- 比較、「品詞」、「磁気」
- 次の単語を予測します (空白を埋める)
N-gram言語モデル
(2, 3, 4) 語を取ります
ニューラルネットワーク言語モデル
ニューラル ネットワーク + 言語モデル – 「ニューラル ネットワークの方法を使用して、人々の発言に関連する次の 2 つのタスクを完了します。
2 番目のタスク:
「判断」、「a」、「言葉」、「の」、「___
」
シソーラスに「品詞」と「火星」があるとします。
P( __
|「判断」、「a」、「言葉」、「の」)
品詞
w1,w2,w3,w4 (上記の 4 つのワードのワンホット エンコーディング)
w1*Q=c1,
w2*Q=c2,
w3*Q=c3,
w4*Q=c4,
C=[c1,c2,c3,c4]
Q就是一个随机矩阵,是一个参数(可学习)
「判決」、「これ」、「単語」、「の」、「品詞」
ソフトマックス(U[tanh(WC+b1)]+b2)== [0.1, 0.1, 0.2, 0.2, 0.4] ∈ [ 1 , VL ] \in[1,V_L]∈[ 1 、VL】
ワンホットエンコーディング(ワンホットエンコーディング)
ワン ホット エンコーディング: コンピューターに言葉を認識させる
Dictionary V (新華社辞書のすべての単語がセット V に結合されます)
辞書に単語が 8 つだけあると仮定します。
コンピューターは言葉を理解できません
しかし、私たちはコンピューターに単語を認識させたいのです
"フルーツ"
ワンホット エンコーディング: 8*8 行列が与えられた場合
「時間」 --》 10000000
「果物」 --》 01000000
「バナナ」 --》 00000001
2 つの間の類似度を計算するコサイン類似度 (0) – ワード ベクトル (行列乗算)
ワード ベクトル (ニューラル ネットワーク言語モデルの副積 Q)
何か一言ください、
「判定」 --」 ワンホットエンコーディング w1 [1,0,0,0,0]
w1*Q =c1 (単語「判断」の単語ベクトル)
単語ベクトル: ベクトルを使用して単語を表現します
ワードベクトルの次元(サイズ)を制御可能
単語ベクトルが得られれば、最初の問題も解決されます (下流タスク)
要約する
ニューラル ネットワーク言語モデル: ニューラル ネットワークを通じて 2 人が話す問題を解決する
副産物があります: Q 行列 – 「新しい単語ベクトル (単語ベクトルは単語ベクトルの次元を選択でき、2 つの単語間の類似性を見つけることができます)
下流タスク