深度模型（五）：Embedding

Embedding

NLP领域通常用语言模型来做预训练，得到单词的Embedding向量，用于其他NLP下游任务的输入。

语言模型

什么是语言模型？就是某种语言中，一个句子 $S$ 出现的概率：

$P(S)$

自然语言的基本构成元素是词，那么语句 $S$ 的概率可以表示为：

$P(S)=P(w_1,w_2,...,w_n)$
$=P(w_1)P(w_2|w_1)...P(w_n|w_1,w_2,...,w_{n-1})$

采用对数形式，则转化为：

$L=LogP(S)=\sum_{i=1}^nlogP(w_i|w_1,..w_{i-1})$

NNLM

论文《A Neural Probabilistic Language Model》中提出了用神经网络建模语言模型的方法，模型结构如下：
在这里插入图片描述

为了降低复杂度，模型做了个简化，取最近的 $n$ 的单词建模下一个单词的出现的概率：

$P(w_i|w_1,...,w_{i-1})\approx P(w_i|w_{i-n+1},...,w_{i-1})$

模型的输出为：

$P(w_i|w_{i-n+1},...,w_{i-1})=sofmax(y)$
$y=b+Wx+Utanh(d+Hx)$
$x=(C(w_{i-1}),...C(w_{i-n+1}))$

ELMo

NAACL2018最佳论文《Deep contextualized word representations》则采用双向语言模型做预训练，同时采用了一种RNN的网络结构LSTM。LSTM网络结果在前面的文章里有单独分析过，这里不再展开。

扫描二维码关注公众号，回复： 8832157 查看本文章

双向语言模型就是采用前置词预测当前词与后置词预测当前词结合的方式训练模型，最大化两个方向的似然函数之和：

$\sum_{k=1}^N(logp(w_k|w_1,...,w_{k-1};\Theta_x,\overrightarrow{\Theta}_{LSTM},\Theta_s)+logp(w_k|w_{k+1},...,w_N;\Theta_x,\overleftarrow{\Theta}_{LSTM},\Theta_s))$

其中 $\Theta_x$ 表示embedding层参数， $\Theta_s$ 表述Softmax输出层参数， $\overrightarrow{\Theta}_{LSTM},\overleftarrow{\Theta}_{LSTM}$ 表示双向LSTM网络的参数。

其他

论文《Improving Language Understanding by Generative Pre-Training》则回到单向语言模型，并将LSTM替换为Transformer。Transformer也在前面的文章里分析过，不再展开。
论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》则在GPT的基础上，又回到了双向语言模型。

jony0917

发布了52 篇原创文章 · 获赞 105 · 访问量 7万+

私信关注