中文NLP知识总结

一、词袋模型：分词、去停用词、消除数字、英文，得到若干词语的集合。

二、词典：词语和其索引ID的一一对应关系。假设共有N个词语。

三、one-hot编码: 在词典基础上，分词之后的文章的词频向量。可以看成是M*N的单词-文档矩阵A。A(i,j)=第i篇文章中词典索引为j的词语出现的次数，即词频TF。

四、TF-IDF模型：在one-hot基础上，A(i,j)的值由词频变成了词频*逆文档频率。缺点：不能表示词语之间的语义关系。作为关键词提取技术的一种。

references:

五、LSI/LSA: LSA(LSI)使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词-文档矩阵中发现不相关的索引变量(因子)，将原来的数据映射到语义空间内。在单词-文档矩阵中不相似的两个文档，可能在语义空间内比较相似。

1. LSI详解

2. 用gensim生成给定语料的TF-IDF向量和ILSI向量。

六、PLSA: 即概率潜在语义分析，采取概率方法替代 SVD 以解决问题。其核心思想是找到一个潜在主题的概率模型，该模型可以生成我们在文档-单词矩阵中观察到的数据。特别是，我们需要一个模型 P(d,w)，使得对于任何文档 d 和单词 w，P(d,w) 能对应于文档-单词矩阵中的那个条目。LSA和PLSA的目的就是从一群文档集中找到潜在的语义因子latent factors。由于提取到的主题词比文档中的词的数量要少很多，而且我们在学习的过程中不需要知道文档的类型信息，所以说LSA和PLSA是无监督的特征降维方法。

1. plsa及EM算法

2. EM算法详解

3. plsa模型再理解

七、LDA : PLSA的贝叶斯进化版。区别在于：文档d产生主题z（准确的说，其实是Dirichlet先验为文档d生成主题分布Θ，然后根据主题分布Θ产生主题z）的概率，主题z产生单词w的概率都不再是某两个确定的值，而是随机变量。LDA在pLSA的基础上给这两参数加了两个先验分布的参数（贝叶斯化）：一个主题分布的先验分布Dirichlet分布 ɑ，和一个词语分布的先验分布Dirichlet分布β。

LDA使用场景：推荐系统

1. 深入理解LDA 和PLSA

2. LDA模型的使用

八、word2vec: 是word embedding的一种，学习一个从高维稀疏离散向量到低维稠密连续向量的映射。该映射的特点是，近义词向量的欧氏距离比较小，词向量之间的加减法有实际物理意义。是one-hot 编码的升级版，有CBOW+Skip-gram.两种训练方式。最终得到每个词语的word2vec 词向量。

1 .Word2vec 使用

九、NLP语言模型：语言模型包括文法语言模型和统计语言模型。一般我们指的是统计语言模型。用一句简单的话说，就语言模型就是计算一个句子的概率大小的这种模型。有什么意义呢？一个句子的打分概率越高，越说明他是更合乎人说出来的自然句子。常见的统计语言模型有N元文法模型（N-gram Model）。语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability）。

1. N-gram模型

十、上古时期的算法：最大熵模型，HMM ,CRF。

十一、 doc2vec ：和word2vec类似。每个段落/句子都被映射到向量空间中，可以用矩阵的一列来表示。每个单词同样被映射到向量空间，可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征，预测句子中的下一个单词。

猜你喜欢