数据挖掘(KDD)初学基础概要

版权声明:本文为博主原创文章,转载请注明出处。欢迎交流学习Q1440528444 https://blog.csdn.net/qiu1440528444/article/details/82386856

数据挖掘(KDD)Knowledge discovery in database

从各种各样的应用数据中发现有趣数据模式。
数据源包括:数据库、数据仓库、Web、其他信息存储库。
可挖掘的数据类型:数据库数据、数据仓库数据、事务数据。

1. 数据库数据
即数据库系统(也称数据库管理系统:由一组内部相关的数据,即数据库;一组管理存取数据的软件程序组成)里的数据。最常用的是关系数据库。
关系数据库是一组的汇集,每个表由许多元组构成,每个元组代表一个对象,有唯一的标识符(关键字),且有许多属性组成。

2. 数据仓库
是一个从多个数据源收集的信息存储库,并存放在一个模式下,在单个站点。
数据仓库通过:数据清理、数据变换、数据集成、数据装入、定期数据刷新来构造。

3. 事务数据
事务数据库的每个记录代表一个事务,如顾客的一次购物。一个事务包含唯一的标识符ID,以及一组构成事务的。(如购物篮分析(关联规则))。

其他类型数据的挖掘概述
除了以上数据外,还有其他各种形式和结构的数据。如下:
1.时间相关或序列数据 eg. 股票交易、历史记录、时间序列
2.数据流 eg. 视频监控、传感器数据,他们连续播放
3. 空间数据 eg. 地图
4. 工程设计数据 eg. 建筑数据、系统部件
5. 图和网状数据 eg. 社会和信息网络

我们可以挖掘什么?
挖掘计算机网络数据,根据消息流的异常进行入侵检测。这种异常可以通过聚类、流模型的动态构建,或把当前的频繁模式和先前的比较来发现。
挖掘空间数据,可以得到根据城市离主要公路的距离,描述都市贫困率的变化趋势的模式。
挖掘文本数据,通过挖掘客户对产品发表的评论,可以评估客户的意见,了解产品被市场接受的程度。

可以挖掘什么类型的模式?
数据挖掘的功能主要有:
1.特征化与区分
2.频繁模式、关联和相关性挖掘
3.分类与回归
4.聚类分析
5.离群点分析

数据挖掘的功能主要用于指定,数据挖掘任务中发现的模式。一般分为描述性任务、预测性任务。
1.特征化与区分(通过类/概念描述)
数据特征化:是对目标数据特性或特征的汇总。
数据区分:将目标数据一般特性与多个对比类对象的一般特性进行比较。
2.挖掘频繁模式、关联和相关性
在购物篮分析中,通过关联规则可获得满足支持度和置信度的不同商品强关联规则。
3.用于预测分析的分类与回归
分类(类标号预测):决策树、神经网络、朴素贝叶斯分类、支持向量机、k最近邻分类。
回归(数值预测):建立连续型函数模型,预测缺失值。
4.聚类分析
不考虑类标号,分析数据对象进行聚类,使类(簇)内相似度最大,类间相似度最小。
5.离群点分析
通常情况下离群点被视为噪声点被丢弃。但在一些应用中(如,欺诈检测)。也称异常挖掘。

相关学习
统计学、机器学习、模式识别、可视化、数据库和数据仓库、算法、信息检索等。

猜你喜欢

转载自blog.csdn.net/qiu1440528444/article/details/82386856