第6章 挖掘频繁模式、关联和相关性:基本概念和方法
6.1 基本概念
频繁模式,频繁地出现在数据集中的模式
频繁项集频繁地同时出现在交易数据集中的元素的集合是频繁项集
6.1 基本概念
支持度
置信度
6.2 挖掘方法
6.2.1 Apriori算法:通过限制候选产生发现频繁项集
先验性质:频繁项集第所有非空子集也一定是频繁第
反单调性(antimonotone):一个集合不能通过测试,则它的所有超集也都不能通过相同的测试
- 连接步
- 剪枝步
6.2.2 由频繁项集产生关联规则
- 对于每个频繁项集l,产生l的所有非空子集
- 对于l的每个非空子集s,置信度 >= min_conf
6.2.3 提高Apriori算法的效率
- 基于散列的技术
- 事务压缩
- 划分
- 抽样
- 动态项集计数
6.2.4 挖掘频繁项集的增式增长方法
FP-growth(发现频繁模式而不产生候选)