学习笔记(一)数据挖掘概念与技术

1数据仓库与数据库:

数据仓库是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的、以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理。

数据库:传统关系型数据库的主要应用。

2数据挖掘功能

特征化:一般的汇总所研究类(目标类),通常通过查询来收集对应于用户指定类数据。例如:在数据库上执行一个SQL查询来收集产品数据。

区分:将目标类数据对象的一般特征与一个或多个对比类对象的一般特性进行比较。

频繁模:频繁项集(频繁项集挖掘是频繁模式挖掘的基础)、频繁子序列和频繁子结构。-->发现数据中有趣的关联和相关性分析:buys(X,"computer")=>buys(X,"software")[support=1%,confidence=50%]50%的置信度和1%的支持度。涉及单个重复的属性或谓词(“buys”)称为单维关联规则。多维关联规则的例子:age(X,"20...29")\wedgeincome(X,"40K..49K")=>>buys(X,"laptop")[support=2%,confidence=60%](释:年龄收入对购买的影响)

如果关联规则不能同时满足最小支持度阈值和最小置信度阈值则被认为是无趣的。、

相关分析:在分类和回归之前,试图识别与分类和回归过程显著相关的属性。’

分类:找出描述和区分数据类或概念的模型,一遍能够实用模型预测类标号未知对象的类标号。例如决策树、神经网络

回归:建立连续值函数模型,用来预测确实的或难以获得的数值数据,而不是类标号。

聚类:分析的对象不考虑标号,根据最大化类内相似性,最小化类间相似性的原则进行聚类或分组。

离群点分析:既异常挖掘。可以用统计检验来检测,应用于欺诈检测。

3一个有趣的模式:(1)易于被人理解(2)在某种确信度上,对于新的或检验数据是有效的(3)潜在有用的(4)新颖的

4数据挖掘的技术

猜你喜欢

转载自blog.csdn.net/never0822/article/details/81205383
今日推荐