数据挖掘算法-关联算法-Apriori

一、Apriori算法简介:

关联规则挖掘是数据挖掘领域的热点,关联规则反映一个对象与其他对象之间的相互依赖关系,如果多个对象之间存在-定的关联关系,那么一个对象可以通过其他对象进行预测。

关联规则挖掘一般可分成两个步骤:
        ①找出所有支持度大于等于最小支持度阈值的频繁项集。
        ②由频繁模式生成满足可信度阈值的关联规则。

二、基本概念:

 1、事物和项:

数据挖掘用到的基本数据集记为D,它是由事务构成的,- -般多存储于事务数据库中,表示为D={t1, t2,..,tm,.., tq},tk(k=1,2,..,. n)称为事务(Transaction) 。每一个事务可再细分,表示为tk={i1,i2,.,. in, .,. ip}, im(m=1, 2, .,. p)称为项(item),即事务是由若干个项组成的集合。每个事务可以用唯一的标识符事务编号TID来标识。设I={i1,i2, .,. ip} 是D中全体数据项组成的集合,I的任意子集X称为D中的项集(itemset) 。若项集中项的个数为k,称为k项集(k-itemset)。频繁项集是指出现次数较多的项集。

TID

商品

001

豆奶,莴苣

002

莴苣,啤酒,尿布,甜菜

003

豆奶,尿布,啤酒,橙汁

004

莴苣,豆奶,尿布,啤酒

005

莴苣,豆奶,尿布,橙

2、关联规则:

若X,Y均为项集,且XcI, YcI,并且x∩Y= 0,用蕴含式X=>Y表示一个关联规则。它表示某些项(X项集) 在一个事务中的出现,可推导出另一些项(Y项集)在同一事务中也出现。这里,“=>” 称为“关联”操作,X称为关联规则的前提,Y称为关联规则的结果。

3、支持度:

支持度表示该数据项在事务中出现的频度。数据项集 X的支持度support(X)是D中包含X的事务数量与D的总事务数量之比,如下公式所示。
         Support(x)= count(x)/ count(D)
       关联规则X=>Y的支持度等于项集X∪Y的支持度,如下公式所示。
         Support(X=>Y)= Support(X∪Y)= count(X∪Y)/ count(D)
       如果support(X)大于等于用户指定的最小支持度minsup,则称X为频繁项目集,否则称X为非频繁项目集。

TID

商品

001

豆奶,莴苣

002

莴苣,啤酒,尿布,甜菜

003

豆奶,尿布,啤酒,橙汁

004

莴苣,豆奶,尿布,啤酒

005

莴苣,豆奶,尿布,橙汁

Support(豆奶)=4/5=0.8

Support(尿布=>啤酒)=Support(尿布∪啤酒)=3/5=0.6

4、置信度:

置信度也称为可信度,规则X=>Y的置信度表示D中包含X的事务中有多大可能性也包含Y。表示的是这个规则确定性的强度,记作confidence(X=>Y)。通常,用户会根据自己的挖掘需要来指定最小置信度阈值,记为minconf。
                                      confidence(X∪Y)= support(X∪Y)/support(X)
       如果数据项集X满足support(X)>=minsup,则X是频繁数据项集。若规则X=>Y同时满足confidence(X=>Y)>=minconf,则称该规则为强关联规则,否则称为弱关联规则。一般由用户给定最小置信度阈值和最小支持度阈值。发现关联规则的任务就是从数据库中发现那些置信度、支持度大于等于给定最小阈值的强关联规则。

TID

商品

001

豆奶,莴苣

002

莴苣,啤酒,尿布,甜菜

003

豆奶,尿布,啤酒,橙汁

004

莴苣,豆奶,尿布,啤酒

005

莴苣,豆奶,尿布,橙汁

Support(豆奶)=4/5=0.8

Support(尿布=>啤酒)=Support(尿布∪啤酒)=3/5=0.6

Confidence(豆奶=>莴苣)=Support(豆奶∪莴苣)/Support(豆奶)=0.75

5、关联规则性质:

从基本概念的定义中得到关联规则具有如下性质:
       性质1:非频繁项集的超集一定是非频繁的。即如果X是非频繁项集,且X是Y的子集,则Y也是非频繁项集。

性质2:频繁项集的所有非空子集都必须也是频繁的。即如果Y是频繁的,且X∈Y,X≠∅成立,则X也一定频繁项集。

性质3:任意-个项集的支持度不小于其超集的支持度。即如果X是Y的子集,则support(X)>=support(Y)。这是因为根据定义,假设项集I的支持度小于最小支持度阈值(minsup),则I不是频繁的,如果把项A添加到I,则结果项集(AUI) 不可能比I出现更频繁,因此,结果项集也不是频繁的。假设事务是频繁项集,则定得到support (I-A)>=support(I),即频繁项集的非空项集-定是频繁的。反之却不可能成立。

 

猜你喜欢

转载自blog.csdn.net/qq_39529775/article/details/108718063