挖掘频繁模式、关联和相关性:基本概念和方法

基本概念

频繁模式:

频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。
例如:频繁地同时出现在交易数据集中的商品(如香皂和洗衣液)的集合是频繁项集。

序号 交易号 香皂(a) 洗发露(b) 洗衣液(c) 牙膏(d) 简化表示
1 081201 香皂 洗发露 洗衣夜 a, b, c
2 081202 香皂 洗衣夜 牙膏 a, c, d
3 081203 香皂 洗发露 a, b,
4 081204 洗发露 洗衣夜 牙膏 b, c, d
5 081205 香皂 洗发露 洗衣夜 牙膏 a, b, c, d
6 081206 香皂 洗发露 洗衣夜 牙膏 a, b, c, d
7 081207 洗发露 牙膏 b, d
8 081208 香皂 牙膏 a, b, c, d
9 081209 香皂 洗发露 a, d
10 081210 香皂 洗发露 牙膏 a, b, d

关联规则:

关联规则就是描述数据事务属性项目之间的关联。

  • 表示成X=>Y(s%, c%)。
  • 其中s%为支持度,即X和Y同时出现的概率,c%为置信度,即在X出现的情况下,Y也出现的概率。
  • 举例:上表中可以知道:有6个事务中买香皂就一定买了洗发露;如第1,3,5,6,9和10条。这个概率为6/10=60%。
    在买香皂的前提下(即有8个,1,2,3,5,6,8,9,10),又买洗发露的个数为6个,这个概率为6/7=85%。
    那么写“买香皂就一定买了洗发露”的关联规则表示成:a=>b。此时的支持度为60%,置信度为85%。

支持度:

支持度就是指定的项目组合集,在数据库中包含这个项目集的事务数占总数的比例。

  • 项目集就是项目属性的任意组合,如表所示,这里有4个项目属性a,b,c,d,则可能有4^2即16种情况,全部没有除外就只有15种情况。
  • 假设项目集为{a},也就是买香皂的交易有:1,2,3,5,6,8,9,10,也就是有8个交易中有香皂,所以项目集为{a}的支持数为8,支持度为80%。
    假设项目集为{a,b},也就是同时买香皂和洗发露的交易有:1,3,5,6,9,10也就是有6个交易中同时有香皂和洗发露,所以项目集为{a,b}的支持数为6,支持度为60%。

置信度:

置信度是在X出现的情况下,Y也出现的概率。计算公式为:X和Y的支持数/X的支持数。

  • 规则:{a,b}=>{c}(30%, 50%), {a,b,c}的支持数为3个,{a,b}的支持数为6个,规则置信度为50%。

频繁项目集:

频繁项目集就是指项目集的支持度大于人们指定的支持度。

  • 举例:项目集为{a,b}的支持数为6,支持度为60%,如果人们指定的支持度为60%,则它为频繁项目集。如果指定的支持度为61%,它为非频繁项目集.

本人初学,敬请指教。

猜你喜欢

转载自blog.csdn.net/wqqgo/article/details/69347755