NLP课程：词向量到Word2Vec理论基础及相关代码

以下是我的学习笔记，以及总结，如有错误之处请不吝赐教。

NLP的发展主要有两个方向：

词向量需要保证空间中分布的相似性：

离散表示进阶：

Bi-gram和N-gram表示：前面的两种方法都只是表示了单个单词的关系，没有上下文顺序的关系，因此发展出了N-gram和Bi-gram（如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为 Bi-gram：参考一），一句话 (词组合) 出现的概率为：

这样表示的优点是：考虑的了词顺序，但是缺点是词表膨胀，导致计算量增大。
离散表示的问题：
①无法衡量词向量之间的关系；

②词表维度随着语料库增长膨胀；
③n-gram词序列随语料库膨胀更快；
④数据稀疏问题。

分布式表示 (Distributed representation) ：在离散表示的基础上发展而出，用一个词附近的其他词表示该词，被称为现代统计自然语言最有创见的想法之一，举例如下：

共现矩阵(Cocurrence matrix)：Word - Document 的共现矩阵主要用于发现主题(topic)，用于主题模型，如LSA (Latent Semantic Analysis)，局域窗中的Word - Word 共现矩阵可以挖掘语法和语义信息：

将共现矩阵行(列)作为词向量存在问题：

SVD降维：受上面存在的问题，进行改进构造低维稠密向量 (25~1000维)作为词的分布式表示，想到用SVD对共现矩阵向量做降维：

但是也同样存在问题：

上面叙述了很多词向量表示方法，现在终于进入正题。

NNLM (Neural Network Language model) ：这个模型可以说是word2vec的前身，它直接从语言模型出发，将模型最优化过程转化为词向量表示的过程，目标函数为：

改进点：
①使用了非对称的前向窗函数，窗长度为n-1；
②滑动窗口遍历整个语料库求和，计算量正比于语料库大小；
③概率P满足归一化条件，这样不同位置t处的概率才能相加，即：
结构：

其中：
①(N-1)个前向词:one-hot表示；
②采用线性映射将one-hot表示投影到稠密D维表示；
③输出层:Softmax；
④各层权重最优化:BP＋SGD ；
⑤词典维数V，稠密词向量表示维数D 。

计算复杂度：每个训练样本的计算复杂度为：N * D + N * D * H + H * V（ps：一个简单模型在大数据量上的表现比复杂模型在少数据量上的表现会好）：

CBOW(连续词袋)：是word2vec模型的一种，从单词袋上下文预测目标单词，结构如下：