学习笔记(70):第二章:海量数据的处理与挖掘-关联规则挖掘01

立即学习:https://edu.csdn.net/course/play/26303/334278?utm_source=blogtoedu

1. 数据挖掘是一项从大量的记录数据中提取有价值、人们感兴趣的只是,这些只是是隐含的、事先未知的有用信息,提取的知识一般可表示为概念(concepts)、规则(rules)、规律(regular ides)、模式(patterns)等形式

其中:

规则:海量数据中样本与样本之间的关联性

模式:通过特征X,经过函数f得到结构y

2. 关联规则:发现数据中的规律

* 超市中什么产品回忆起购买(组合推荐)

* 顾客在买了一台PC之后下一步会购买(搭配推荐)

* 哪种DNA对这种药物敏感(统计学运用)

3. 关联规则基本概念

* 每一个数据样本称为项目

* 例如一个顾客购买商品的购物车称为项目的组合即事务

* 事务中有意义的项目集合叫做项集,比如面包和牛奶,这就是二项集,我们要挖掘的就是项集

* 1000个人购物,1000个购物单,牛奶在购物单中出现的次数叫支持度

* 当支持度高到一定程度,才会观测出有意义的信息和规则,设定一个阈值

* 项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或频集)

4. 事务数据库中X和Y同时存在的百分比s%称为支持度;信任度表示出现X的基础上再出现Y的概率,即条件概率

发布了73 篇原创文章 · 获赞 3 · 访问量 722

猜你喜欢

转载自blog.csdn.net/wj1408421029/article/details/104529417
今日推荐