挖掘频繁模式、关联和相关性：基本概念和方法 - 代码天地

挖掘频繁模式、关联和相关性：基本概念和方法

其他 2018-06-05 02:00:15 阅读次数: 2

基本概念

频繁模式：

频繁模式是频繁地出现在数据集中的模式（如项集、子序列或子结构）。
例如：频繁地同时出现在交易数据集中的商品（如香皂和洗衣液）的集合是频繁项集。

序号	交易号	香皂（a）	洗发露（b）	洗衣液（c）	牙膏（d）	简化表示
1	081201	香皂	洗发露	洗衣夜		a, b, c
2	081202	香皂		洗衣夜	牙膏	a, c, d
3	081203	香皂	洗发露			a, b,
4	081204		洗发露	洗衣夜	牙膏	b, c, d
5	081205	香皂	洗发露	洗衣夜	牙膏	a, b, c, d
6	081206	香皂	洗发露	洗衣夜	牙膏	a, b, c, d
7	081207		洗发露		牙膏	b, d
8	081208	香皂			牙膏	a, b, c, d
9	081209	香皂	洗发露			a, d
10	081210	香皂	洗发露		牙膏	a, b, d

关联规则：

关联规则就是描述数据事务属性项目之间的关联。

表示成X＝>Y(s%, c%)。
其中s%为支持度，即X和Y同时出现的概率，c%为置信度，即在X出现的情况下，Y也出现的概率。
举例：上表中可以知道：有6个事务中买香皂就一定买了洗发露；如第1，3，5，6，9和10条。这个概率为6/10=60%。
在买香皂的前提下（即有8个，1，2，3，5，6，8，9，10），又买洗发露的个数为6个，这个概率为6/7=85%。
那么写“买香皂就一定买了洗发露”的关联规则表示成：a=>b。此时的支持度为60%，置信度为85％。

支持度：

支持度就是指定的项目组合集，在数据库中包含这个项目集的事务数占总数的比例。

项目集就是项目属性的任意组合，如表所示，这里有4个项目属性a,b,c,d,则可能有4^2即16种情况，全部没有除外就只有15种情况。
假设项目集为{a}，也就是买香皂的交易有：1，2，3，5，6，8，9，10，也就是有8个交易中有香皂，所以项目集为{a}的支持数为8，支持度为80%。
假设项目集为{a，b}，也就是同时买香皂和洗发露的交易有：1，3，5，6，9,10也就是有6个交易中同时有香皂和洗发露，所以项目集为{a，b}的支持数为6，支持度为60%。

置信度：

置信度是在X出现的情况下，Y也出现的概率。计算公式为：X和Y的支持数/X的支持数。

规则：{a,b}=>{c}(30%, 50%), {a,b,c}的支持数为3个，{a,b}的支持数为6个,规则置信度为50%。

频繁项目集：

频繁项目集就是指项目集的支持度大于人们指定的支持度。

举例：项目集为{a，b}的支持数为6，支持度为60%，如果人们指定的支持度为60%，则它为频繁项目集。如果指定的支持度为61%，它为非频繁项目集.

本人初学，敬请指教。

猜你喜欢

转载自blog.csdn.net/wqqgo/article/details/69347755

挖掘频繁模式、关联和相关性：基本概念和方法

挖掘频繁模式、关联和相关性:基本概念和方法

挖掘频繁模式、关联和相关性：基本概念和方法以及aprori算法MATLAB实现

数据挖掘--挖掘频繁模式、关联和相关(2)

数据挖掘--挖掘频繁模式、关联和相关(1)

数据挖掘读书笔记--第六章：频繁模式挖掘、关联及相关性

评价频繁模式挖掘和关联分析的指标(模型兴趣度度量方法)

PostgreSQL查询相关性和相关性算法

线程的基本概念和相关函数

关联规则-频繁模式挖掘

数据挖掘一些基本概念和流程

数据挖掘的基本概念和大数据的特点

初识递归--基本概念和方法

聚类分析的基本概念和方法

关联规则挖掘基本概念与Aprior算法

相关性算法和api

统计相关性和关系

因果关系和相关性

事务相关性的概念

数据挖掘基本概念和过程--数据挖掘基础知识入门学习

数据挖掘（五）频繁模式挖掘和算法

数据挖掘读书笔记--第九章：聚类分析：基本概念和方法

NIO类库和相关基本概念

图的基本概念及相关术语和性质

机器学习的基本概念和相关术语

【CPRI】（1）CPRI基本概念和相关术语

Java 代理模式的基本概念、使用场景、应用示例和实现方法

【考研数学】线形代数第三章——向量 | 1）基本概念、向量组的相关性与线性表示

LVS基本概念和三种模式

RabbitMQ的基本概念和五种模式使用示例

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)