评价频繁模式挖掘和关联分析的指标(模型兴趣度度量方法)

强规则不一定是有趣的

关联分析和频繁模式挖掘的两大经典算法包括：Apriori算法和FP-growth。

其在学习过程中的评价指标主要包括支持度（包括支持度计数）和置信度（也叫可信度）。但其实这两个指标有一定的局限性。

示例问题如下：

假设一共有10000个事务，其中包括A事件的事务有6000个；包括B事件的事务有7500个；同时包括A事件和B事件的事务有4000个。要求的最小支持度阈值为30%，最小置信度阈值为60%。计算关联规则。

由条件可知，P(A)=60%，P(B)=75%，P(AB)=40%。则支持度为support(A=>B)=P(AB)=40%，置信度confidence(A=>B)=P(B|A)=P(AB)/P(A)=66%。因此支持度和置信度都满足最小阈值，可以认为是强规则。

但是此处存在一个问题：不考虑A事件，B事件的发生概率为75%，比66%还高，所以A和B事件是负相关，A事件的发生降低了B事件的发生的可能性。可以发现此强规则是误导，有一定欺骗性，所以传统的支持度和置信度不能完全度量A和B之间蕴含的实际强度。以下介绍几个可以替代支持度-置信度框架的指标。

事件A和B之间的相关性度量可以有很多指标，比如：

提升度

两个独立的事件：P(AB)=P(A)*P(B)。否则两个事件是依赖和相关的。所以提升度定义如下：

lift(A, B)=P(AB)/P(A)*P(B)

当上式小于1，则A和B的出现是负相关的；大于1，则A和B的出现是正相关的，意味着每一个的出现都蕴含另一个的出现；等于1则A和B是独立的，之间没有相关性。

上式等价于P(B|A)/P(B)或conf(A=>B)/sup(B).

卡方度量

X^2=∑((观测值-期望值)^2/期望值)

卡方度量依赖于相依表的建立。

全置信度

all_conf(A, B)=sup(AB)/max{sup(A), sup(B)}=min{P(A|B), P(B|A)}

又称之为两个与A和B相关的关联规则的最小置信度。

最大置信度

max_conf(A, B)=max{P(A|B), P(B|A)}

是两个关联规则“A=>B”和"B=>A"的最大置信度。

Kulczynski

Kulc(A,B)=1/2(P(A|B)+P(B|A))

两个置信度的平均值。

余弦

cosine(A, B)=P(AB)/((P(A)*P(B))^1/2)=sup(AB)/((sup(A)*sup(B))^1/2)=(P(A|B)*P(B|A))^1/2

可以看做是调和提升度度量。

以上四个度量的共同性质：（1）度量值仅受A和B和AB的支持度的影响，而不受事务总个数的影响。（2）每个度量值都编取0~1，并且值越大，A和B的联系越紧密。

四个零不变度量指标，推荐Klus与不平衡比配合使用。

参考文献:

《数据挖掘：概念与技术》韩家炜等人著