利用潜在语义分析和关联规则挖掘构造同义与关联词集

目前常用的文本挖掘算法有：Bayes LISF SVM KNN ANN 决策树等，其中大部分都是基于VSM的。
VSM基本思想：文本可以表示成为由独立的概念词组成的向量空间，独立的概念词成为文本的特征项，每个特征项都是一维的，维数的权重代表概念的重要程度。该模型的最大有点是文本的可量化表示，即将文本表示成可度量的向量，作为向量空间的一个点，通过计算向量间的距离决定向量类别的归属。不足：未考虑向量模型中各特征项间的影响，分类或聚类不是很理想。
一个文本D都是词的序列，每一个词（向量空间特征）都可以根据其在文档中的重要程度赋予一定的权值，从而构成一个向量（w1,w2,...,wn），其中wi是第i个特征的权值，n是特征总数。一些常见的权值计算方法：二进制加权，词频统计，tf-idf等。
文档特征向量构造是文本挖掘的关键步骤，主要包括以下内容：

分词，过滤低频词及高频词，虚词等;
特征抽取，构成文本的词汇数量一般比较多，从而表示文本向量空间的维树也相当大，可达上千维，因此降维是很必要的。一般通过特征提取的方法进行降维，表示词汇的特征指标有：文档频率（Document Frequency），信息获取（Information Gain），互信息（Mutual Information），开方拟合检验，术语强度（TermStrength）。通过计算词汇的上述任一指标，然后由大到小排序，选取指定数量的或指标值大于指定阈值的词汇构成特征集;
特征评估加权，主要的方法是tf-idf，根据挖掘目的的不同，目前存在很多TFIDF构造方法。

从上述构造过程可以看出，文本向量空间的构造完全按照概率统计规律进行的，而不考虑词语词之间的关系。

LSA（Latent Semantic Analysis，潜在语义分析）利用词的上下文相关性，即出现在相似上下文的词被认为在用法和含义上相近。首先，需要构造词-文档矩阵，A=|aij|,A是m×n阶矩阵，aij代表第i词在第j个文档中出现的权重。m代表词汇总量，n代表文档个数。aij要考虑来自两方面的贡献，局部权值L（i，j）和全局权值C（i，j），由于每个词只会出现在少量的文档中，所以A通常为高阶稀疏矩阵。

利用潜在语义分析和关联规则挖掘构造同义与关联词集

猜你喜欢