【NLP】_03_基础词向量

Word2Vec，作为 NLP 领域深度学习的基础，是每个工程师都绕不过的重点话题。虽然从18年年底就诞生出了 Bert，GPT 等预训练模型，横扫 NLP 领域，但其还是基于 Word2Vec 的向量和思想训练出来的。

直接思路 $Softmax$ 形式算出概率最大的那个单词 ( $|V|$ 表示词库)

$P (W_i | W_j ; θ) = {\frac{e^{\bf U_{W_i}\times V_{W_j}}}{\sum_{c\,\epsilon |V|}{e^{\bf U_{c}\times V_{W_j}}}}}$

目标函数 ( $|V|$ 表示词库，不好优化， $|V|$ 词库可能非常大，通常采用 Negative Sampling)

${\bf L} = \mathop{\arg\max}_{\theta} \; \prod_{w\,\epsilon\, center} \; \prod_{c\,\epsilon\, context} {\frac{e^{\bf U_{c}\times V_{w}}}{\sum_{c^{'}\epsilon \,|V|}{e^{\bf U_{c^{'}}\times V_{W}}}}}$
$= \mathop{\arg\max}_{\theta} \; \sum_{w\,\epsilon\, center} \; \sum_{c\,\epsilon\, context} {\bf U_{c}}\times{\bf V_{w}} -log \sum_{{c^{'}}\epsilon\, |V|} {{e}^{\bf U_{c^{'}}\times \,{\bf V_w}}}$

巧妙思路（表示成 LR 的分类形式）

$P (W_i | W_j ; θ) \;→\; P(D=1\,|\,W_i,W_j;\,\theta) = {\frac{1}{1+{e^{(-U_{W_i}\times V_{W_j})}}}}$

目标函数（ $D=1$ 表示 $W_i$ 和 $W_j$ 同时出现， $D^{'}=0$ 表示 $W_i$ 和 $W_j$ 不能同时出现）

${\bf L} = \mathop{\arg\max}_{\theta} \; \prod_{{(w,\,c)}\,\epsilon \,D} \; P(D=1\,|\,W_i,W_j;\,\theta) \; \prod_{{(w,\,c)}\,\epsilon \,D^{'}} \; P(D^{'}=0\,|\,W_i,W_j;\,\theta)$
$= \mathop{\arg\max}_{\theta} \; \prod_{{(w,\,c)}\,\epsilon \,D} \; {\frac{1}{1+{e^{(-U_c\times V_w)}}}} \; \prod_{{(w,\,c)}\,\epsilon \,D^{'}} \; {\frac{1}{1+{e^{(-U_c\times V_w)}}}} \;$
$= \mathop{\arg\max}_{\theta} \; \sum_{{(w,\,c)}\,\epsilon \,D} log\,\sigma(U_c,\,V_w) \;\;+ \sum_{{(w,\,c)}\,\epsilon \,D^{'}} log\,\sigma(-\,U_c,\,V_w)$

Negative Sampling（负采样方法，解决负样本太大的问题， ${{c^{'}}\,\epsilon \,N(w)}$ 表示随机采样负样本）

${\bf L}= \mathop{\arg\max}_{\theta} \; \sum_{{(w,\,c)}\,\epsilon \,D} 【\;\; log\,\sigma(U_c,\,V_w) \;\;+ \sum_{{c^{'}}\,\epsilon \,N(w)} log\,\sigma(-\,U_{c^{'}},\,V_w) \;\;】$