频繁模式:频繁地出现在数据集中的模式。
Apriori算法流程:
Apriori算法主要的挑战:
-
要对数据进行多次扫描;
-
会产生大量的候选项集;
- 对候选项集的支持度计算非常繁琐;
解决思路:
- •减少对数据的扫描次数;
- •缩小产生的候选项集;
- •改进对候选项集的支持度计算方法
FP树的挖掘步骤:
条件FP树牵扯到类似计算的东西。不想一个个的截图。下面自己看吧。
闭频繁项集:
如果不存在项集X的超项集Y是的Y与X在数据集D中具有相同的支持度计数,则称项集X在数据集D中是闭的。
极大频繁项集:
如果项集X是频繁的,并且不存在超项集Y使得X ⊂Y,且Y在D中是频繁的。
评估方法:【就一页PPT我也不知】