机器学习算法 - 频繁项集和关联规则思想

频繁项集

Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。
性质一:如果一个项集是频繁的,则它的所有子集一定也是频繁的;
性质二:相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的;
这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝(support-based pruning)
这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为支持度度量的反单调性(anti-monotone)

image-20210624201839803

过程

对候选项进行计数

比较与最小支持度的关系  不满足则删除

自链接和剪枝 产生候选项集		-		剪枝:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的;
image-20210624201754289

上面的C3中没有{A,B,C}是因为{A,B}不为频繁项,所以子连接后要去除

相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的;

image-20210624202247287

例子

image-20210624202454110 image-20210624202514308

关联规则

image-20210624203222591

如果规则X -> Y-X不满足置信度阈值,则形如X -> Y-X的规则一定也不满足置信度阈值,其中X*是X的子集。

例子

image-20210628181246500

Guess you like

Origin blog.csdn.net/qq_43779658/article/details/118426650