利用潜在语义分析和关联规则挖掘构造同义与关联词集

目前常用的文本挖掘算法有:Bayes LISF SVM KNN ANN 决策树等,其中大部分都是基于VSM的。
VSM基本思想:文本可以表示成为由独立的概念词组成的向量空间,独立的概念词成为文本的特征项,每个特征项都是一维的,维数的权重代表概念的重要程度。该模型的最大有点是文本的可量化表示,即将文本表示成可度量的向量,作为向量空间的一个点,通过计算向量间的距离决定向量类别的归属。不足:未考虑向量模型中各特征项间的影响,分类或聚类不是很理想。
一个文本D都是词的序列,每一个词(向量空间特征)都可以根据其在文档中的重要程度赋予一定的权值,从而构成一个向量(w1,w2,...,wn),其中wi是第i个特征的权值,n是特征总数。一些常见的权值计算方法:二进制加权,词频统计,tf-idf等。
文档特征向量构造是文本挖掘的关键步骤,主要包括以下内容:
  • 分词,过滤低频词及高频词,虚词等;
  • 特征抽取,构成文本的词汇数量一般比较多,从而表示文本向量空间的维树也相当大,可达上千维,因此降维是很必要的。一般通过特征提取的方法进行降维,表示词汇的特征指标有:文档频率(Document Frequency),信息获取(Information Gain),互信息(Mutual Information),开方拟合检验,术语强度(TermStrength)。通过计算词汇的上述任一指标,然后由大到小排序,选取指定数量的或指标值大于指定阈值的词汇构成特征集;
  • 特征评估加权,主要的方法是tf-idf,根据挖掘目的的不同,目前存在很多TFIDF构造方法。

从上述构造过程可以看出,文本向量空间的构造完全按照概率统计规律进行的,而不考虑词语词之间的关系。

LSA(Latent Semantic Analysis,潜在语义分析)利用词的上下文相关性,即出现在相似上下文的词被认为在用法和含义上相近。首先,需要构造词-文档矩阵,A=|aij|,A是m×n阶矩阵,aij代表第i词在第j个文档中出现的权重。m代表词汇总量,n代表文档个数。aij要考虑来自两方面的贡献,局部权值L(i,j)和全局权值C(i,j),由于每个词只会出现在少量的文档中,所以A通常为高阶稀疏矩阵。






猜你喜欢

转载自wang-2011-ying.iteye.com/blog/1544739