数据挖掘（KDD）初学基础概要

数据挖掘（KDD）Knowledge discovery in database

从各种各样的应用数据中发现有趣数据模式。
数据源包括：数据库、数据仓库、Web、其他信息存储库。
可挖掘的数据类型：数据库数据、数据仓库数据、事务数据。

1. 数据库数据
即数据库系统（也称数据库管理系统：由一组内部相关的数据，即数据库;一组管理；存取数据的软件程序组成）里的数据。最常用的是关系数据库。
关系数据库是一组表的汇集，每个表由许多元组构成，每个元组代表一个对象，有唯一的标识符（关键字），且有许多属性组成。

2. 数据仓库
是一个从多个数据源收集的信息存储库，并存放在一个模式下，在单个站点。
数据仓库通过：数据清理、数据变换、数据集成、数据装入、定期数据刷新来构造。

3. 事务数据
事务数据库的每个记录代表一个事务，如顾客的一次购物。一个事务包含唯一的标识符ID，以及一组构成事务的项。（如购物篮分析（关联规则））。

其他类型数据的挖掘概述
除了以上数据外，还有其他各种形式和结构的数据。如下：
1.时间相关或序列数据 eg. 股票交易、历史记录、时间序列
2.数据流 eg. 视频监控、传感器数据，他们连续播放
3. 空间数据 eg. 地图
4. 工程设计数据 eg. 建筑数据、系统部件
5. 图和网状数据 eg. 社会和信息网络

我们可以挖掘什么？
挖掘计算机网络数据，根据消息流的异常进行入侵检测。这种异常可以通过聚类、流模型的动态构建，或把当前的频繁模式和先前的比较来发现。
挖掘空间数据，可以得到根据城市离主要公路的距离，描述都市贫困率的变化趋势的模式。
挖掘文本数据，通过挖掘客户对产品发表的评论，可以评估客户的意见，了解产品被市场接受的程度。

可以挖掘什么类型的模式？
数据挖掘的功能主要有：
1.特征化与区分
2.频繁模式、关联和相关性挖掘
3.分类与回归
4.聚类分析
5.离群点分析

数据挖掘的功能主要用于指定，数据挖掘任务中发现的模式。一般分为描述性任务、预测性任务。
1.特征化与区分（通过类/概念描述）
数据特征化：是对目标数据特性或特征的汇总。
数据区分：将目标数据一般特性与多个对比类对象的一般特性进行比较。
2.挖掘频繁模式、关联和相关性
在购物篮分析中，通过关联规则可获得满足支持度和置信度的不同商品强关联规则。
3.用于预测分析的分类与回归
分类（类标号预测）：决策树、神经网络、朴素贝叶斯分类、支持向量机、k最近邻分类。
回归（数值预测）：建立连续型函数模型，预测缺失值。
4.聚类分析
不考虑类标号，分析数据对象进行聚类，使类（簇）内相似度最大，类间相似度最小。
5.离群点分析
通常情况下离群点被视为噪声点被丢弃。但在一些应用中（如，欺诈检测）。也称异常挖掘。

相关学习
统计学、机器学习、模式识别、可视化、数据库和数据仓库、算法、信息检索等。

数据挖掘（KDD）初学基础概要

数据挖掘（KDD）Knowledge discovery in database

猜你喜欢