句和文档的embedding

链接: 数据集提取码: 6cgu

1.一论文导读
2.二论文精读
3.三代码实现
4.四问题思索

《Distributed Representations of Sentences and Documents》
—句子和文档的分布式表示学习
作者：Quoc Le and Tomas Mokolov
单位：Google
发表会议及时间：ICML 2014

一论文导读

句子分布式表示简介

句子分布式表示相关方法

前期知识

1. 句子分布式表示简介

句子分布式表示：句子的分布式表示就是将一句话或者一段话（这里将句子和文档同等看待，文档相当于较长的句子）用固定长度的向量表示
意义：如果能够用一个向量准确地表示一句话，那么可以直接能够用这个向量用于文本分类、信息检索、机器翻译等等领域

如下图所示：
在这里插入图片描述

2. 句子分布式表示相关方法
一历史模型：

1 基于统计的句子分布式表示方法：

Bag-of-words
Bag-of-n-grams

2 基于深度学习的句子分布式表示

加权平均法
深度学习模型

（1）Bag of words
算法：

构建一个词表，词表中每个元素都是一个词
对于一句话s，统计词表中每个词在s中出现的次数
根据词表中每个词在s中出现的次数，构造一个词表大小的向量

实例图下：
在这里插入图片描述
思考：Bag-of-words 的缺点，如何改进
（2）对于Bag-of-n-gram，词表中的元素可以为词也可以为n-gram短语

（3）加全平均法：
算法：

构建词表，词表中每个元素都是词
使用词向量学习方法（skip-gram等）学习每个词的词向量表示
对于句子s中的每个词（w1,w2,w3,…,wn)对应的词向量（e1,e2,e3,…,en)加权平均，结果为句子的分布式表示：
（下图公式只有平均，没有加权）

（4）深度学习方法：
算法:

构建词表，词表中每个元素都是词
使用词向量学习方法（skip-gram等）学习每个词向量表示
将句子s中的每个向量作为输入送进深度神经网络模型（CNN或RNN),然后通过监督学习，学习每个句子的分布式表示。

模型一般形式如下图，在concatenation部分将句子的每个词进行了加权平均得到了句子的分布式表示
在这里插入图片描述

3. 前期知识

熟悉词向量的相关知识
了解使用语言模型训练词向量的方法
训练模型如下图：

二论文精读

论文整体框架

传统/经典算法模型

论文提出改进后的模型

实验结果

讨论和总结

1. 论文整体框架
0.摘要
在这里插入图片描述
1.介绍
2.句子分布式表示模型
3.实验
4.相关工作
5.结论

2. 传统/经典算法模型

Bag-of-words
其模型的缺点：
一因为是词袋模型，所以丢失了词之前的位置信息
二句向量知识单纯地利用了统计信息，而没有得到语义信息，或者只得到很少的语义信息
Bag-of-n-gram模型的缺点：
一因为使用了n-gram,所以保留了位置信息，但是n-gram不会太大，最多是4-gram,所以保留的位置信息很少
二 N-gram同样没有学习到语义信息
加权平均法的缺点
对所有的词向量进行平均，丢失了词之前的顺序信息及词与词之间的关系信息
基于深度学习模型的缺点
只能使用标注数据训练每个句子的句向量，这样训练得到的向量都是任务导向的，不具有通用性
基于语言模型的词向量训练
语言模型：语言模型可以给出每个句子是句子的概率：

而每个词的概率定义成n-gram形式，即每个词出现只与前n-1个词有关：

评价语言模型的好坏的指标困惑度（perplexity)
接下来就是基于语言模型的词向量训练
算法：
对于每个词随机初始化一个词向量
取得一个连续的n-1个词，将n-1个词对应的词向量连接（concatenate）在一起形成向量e
将e作为输入，送入一个单隐层神经网络，隐层的激活函数为tanh,输出层的神经元个数为词表的大小
优点：就像原文提到的，即训练出一组词向量，又得到一个语言模型，其次不需要标注数据，可以使用很大的数据集
论文：《A Neural Probabilistic Language Model 》