词向量技术(从word2vec到ELMo)以及句嵌入技术

词嵌入技术

目前常用词向量模型是word2vec和glove, 它们都是基于分布假说(在相同的上下文中出现的单词往往具有相似的含义)的无监督学习方法。

纯粹的无监督学习方法在2017年到2018年得到了令人关注的提升，FastText(word2vec的一种扩展)以及ELMo(目前最先进的基于上下文的词嵌入技术)

FastText相比于Word2vec最主要的提升是它引入了n-gram字符，使得对没有在训练数据中出现的单词（词汇表外的单词）计算单词的表征成为了可能。

ELMo的词嵌入是从多层双向语言模型的内部状态计算出来的。
ELMo模型的特点：

ELMo的输入是字符而不是单词，因此，可以利用子词单元的优势来计算单词表示，同样可以解决词汇表之外的单词
ELMo是双向语言模型中不同层的内部表示结合起来的。一个语言模型的不同层会对一个单词的不同类型的信息进行编码（例如，词性标注（Part-Of-Speech tagging）由双向 LSTM（biLSTM）的较低层很好地预测，而词义排歧则由较高层更好地进行编码）。将所有的层串接起来使得自由组合各种不同的单词表征成为了可能，从而在下游任务中得到更好的模型性能。

句嵌入技术
目前研究出来的四种嵌入方法：从简单的词向量平均的基线到无监督/监督学习方法，以及多任务学习方案

Skip-thoughts vector: 是一个典型的学习无监督句子嵌入的案例。它可以被认为相当于为句嵌入而开发的「skip-gram」模型的句子向量，我们在这里试图预测一个给定的句子周围的句子，而不是预测一个单词周围的其他单词。

Quick-thoughts vector: 在这项工作中，在给定前一个句子的条件下预测下一个句子的任务被重新定义为了一个分类问题

在很长一段时间内，人们认为监督学习技术比无监督学习技术得到的句子嵌入的质量要低一些。然而，这种假说最近被推翻了，这要部分归功于InferSent

多任务学习可以被视为对 Skip-Thoughts、InferSent，以及其他相关的无监督/监督学习方案的一种泛化，它通过试着将多个训练目标融合到一个训练方案