中文NLP知识总结

一、词袋模型:分词、去停用词、消除数字、英文,得到若干词语的集合。

二、词典:词语和其索引ID的一一对应关系。假设共有N个词语。

三、one-hot编码: 在词典基础上,分词之后的文章的词频向量。可以看成是M*N的单词-文档矩阵A。A(i,j)=第i篇文章中词典索引为j的词语出现的次数,即词频TF。

四、TF-IDF模型:在one-hot基础上,A(i,j)的值由词频变成了词频*逆文档频率。缺点:不能表示词语之间的语义关系。作为关键词提取技术的一种。

references:

1.   TF-IDF本身也存在一些问题;

五、LSI/LSA: LSA(LSI)使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词-文档矩阵中发现不相关的索引变量(因子),将原来的数据映射到语义空间内。在单词-文档矩阵中不相似的两个文档,可能在语义空间内比较相似。

1. LSI详解

2. 用gensim生成给定语料的TF-IDF向量和ILSI向量

六、PLSA: 即概率潜在语义分析,采取概率方法替代 SVD 以解决问题。其核心思想是找到一个潜在主题的概率模型,该模型可以生成我们在文档-单词矩阵中观察到的数据。特别是,我们需要一个模型 P(d,w),使得对于任何文档 d 和单词 w,P(d,w) 能对应于文档-单词矩阵中的那个条目。LSA和PLSA的目的就是从一群文档集中找到潜在的语义因子latent factors。由于提取到的主题词比文档中的词的数量要少很多,而且我们在学习的过程中不需要知道文档的类型信息,所以说LSA和PLSA是无监督的特征降维方法。

1. plsa及EM算法

2. EM算法详解

3. plsa模型再理解

七、LDA : PLSA的贝叶斯进化版。区别在于:文档d产生主题z(准确的说,其实是Dirichlet先验为文档d生成主题分布Θ,然后根据主题分布Θ产生主题z)的概率,主题z产生单词w的概率都不再是某两个确定的值,而是随机变量。LDA在pLSA的基础上给这两参数加了两个先验分布的参数(贝叶斯化):一个主题分布的先验分布Dirichlet分布 ɑ,和一个词语分布的先验分布Dirichlet分布β。

    LDA使用场景:推荐系统

1. 深入理解LDA 和PLSA

2. LDA模型的使用

八、word2vec: 是word embedding的一种,学习一个从高维稀疏离散向量到低维稠密连续向量的映射。该映射的特点是,近义词向量的欧氏距离比较小,词向量之间的加减法有实际物理意义。是one-hot 编码的升级版,有CBOW+Skip-gram.两种训练方式。最终得到每个词语的word2vec 词向量。

1 .Word2vec 使用

九、NLP语言模型:语言模型包括文法语言模型和统计语言模型。一般我们指的是统计语言模型。用一句简单的话说,就语言模型就是计算一个句子的概率大小的这种模型。有什么意义呢?一个句子的打分概率越高,越说明他是更合乎人说出来的自然句子。常见的统计语言模型有N元文法模型(N-gram Model)。语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。

1. N-gram模型

十、上古时期的算法:最大熵模型,HMM ,CRF。

1. 最大熵模型

2. 隐马尔可夫模型

3. HMM解决三个实际问题

4. 条件随机场理解

十一、 doc2vec :和word2vec类似。每个段落/句子都被映射到向量空间中,可以用矩阵的一列来表示。每个单词同样被映射到向量空间,可以用矩阵的一列来表示。然后将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。

猜你喜欢

转载自blog.csdn.net/qq_34333481/article/details/85012666