论文:2018 NAACL 《Deep Contextualized Word Representations》
一、优点
1.学习单词的复杂特征,包括语法、语义
2.学习在不同上下文下的一词多义
二、模型
1.Bidirectional language models(BLM)
首先给定N个单词的序列,
1)前向语言模型,已知前k-1个单词 ,预测第k个单词 的概率:
2)后向语言模型,已知下文 ,预测第k个单词 :
双向语言模型(biLM)即将前向和后向语言模型联合起来,并最大化前后向语言模型的联合似然函数:
其中,公式中有两个LSTM 单元, \theta_{x} 为输入的初始词向量参数, \theta_{s} 为输出的softmax层参数(即,在LSTM的每一个步长输出的隐藏层h,再作为softmax的输入)。
2. char-level(CNN) 初始词向量
在第一点中输入的初始词向量通过 char-level(CNN)获得(即,对单词内的字符通过CNN卷积操作得到词向量),如下图:
3. ELMo
ELMo为多个双向语言模型biLM的多层表示
对于某一个单词t_k,一个L层的双向语言模型biLM由2L+1个向量表示:
为char-level初始词向量,前后向 分别为前后向lstm的输出,ELMo将多层的biLM的输出R整合成一个向量:
再将 R_{k} 向量正则化后,输入softmax层,作为学到的一组权重
结构如下图所示
三、ELMo词向量在NLP任务中的使用
1.和初始词向量 (char-level词向量)直接拼接
2. 和隐藏层输出 直接拼接
四、理解
即char-level+多层BLM的组合,再将输出向量整合为权值
解决了多义性(char-level)和上下文语义(bi-lstm)的问题