数据挖掘基本概念

数据挖掘是一个从大规模数据集中提取隐含的、以前未知的、有潜在应用价值信息的非平凡过程。

-Non-trivial extraction of implicit , previously unknown and potentially useful information from massive collection of data.

与数据库技术的区别

1.数据库技术：从大量的数据里找某个数据，或是简单的数据统计信息。好比在草堆里找别针。

2.数据挖掘找的不是一个已存在那里的信息。好比是要设法搞清楚在草堆里有一根针，会造成什么样的后果。

数据挖掘过程

详细过程

了解应用领域，掌握相关先验知识以及应用的目标
收集并集成数据
对数据进行清洁和预处理
对数据进行归约和投影（发现有用特征，降维和变量约简）
确定适当的数据挖掘功能（总计、分类、回归、关联、聚类）
确定数据挖掘算法，并进行数据挖掘
对挖掘结果进行评估
对挖掘结果进行解释：分析结果
应用发现的知识

数据挖掘的数据类型

记录型数据

矩阵数据
文本数据
事物型数据

图表型数据

基因图表
网页链接
社交网络
化学式结构数据

顺序型数据

序列化业务

基因序列数据
时空数据

数据挖掘的任务

预言（Prediction Methods）

-用历史预测未来

描述（Description Methods）

-了解数据中潜在的规律

分类[ Predictive ]

分类知识发现是在精选的训练集上进行学习以发现一般的、概括性的、适用于更多事例的分类规则

在众多的分类知识发现算法中最广泛使用的是分治算法（divide-and-conquer algorthms）

分治算法归纳生成树状结构，成为决策树。

决策树学习的目标

基于客户属性，将客户分为不同的子群体（在同一个群体中的例子数据同一个类别）

聚类[ Description ]

Clustering Definition

Given a set of data points , each having a set of attributes , and a similarity measure among them , find clusters such that

Data points in one cluster are more similar to one another

Data points in separate clusters are less similar to one another.

Similarity Measures:

-Euclidean Distance if attributes are continuous. 欧几里得距离

（一定要标准化）量纲的问题

对属性绝对地敏感（可能过于细分）

-Other Problem-specific Measures. 一些具体问题方法

余弦相似度计算

聚类的应用：

Market Segmentation 市场细分

Document Clustering 文本聚类

关联规则挖掘[ Descriptive ] Association Rule Discovery

支持度：两件事同时发生的概率

置信度：一件事发生时另一件事情发生的概率

应用： Marketing and Sales Promotion 哪种商品可以促进另一种商品的销售

Supermarket shelf management 哪些商品适合放在一起

序列模式发现[ Descriptive ] Sequential Pattern Discovery

Definition:

Examples

应用：

网页搜索时旁边的推荐

社团挖掘[ Descriptive ]

文本挖掘[ Predictive ]

SVMs机器（Support Vector Machines）

SVMS are a rare example of a methodology where geometric intuition , elegant mathematics , throretical guarantees , and practical use meet.

四个方面：几何、数学、理论、实践

数据挖掘的一些挑战性问题

1.高维数据和高速数据流挖掘

超高维分类问题（数百万或数十亿的特征如生物信息数据）

超高速的数据流

2.有序的和时间序列数据

如何有效准确地聚类、分类和预测趋势？

用来预测的时间序列数据有噪声数据干扰

3.从复杂数据中挖掘复杂知识

图挖掘

不是独立对等分布的数据

结合数据挖掘和知识推理

知识兴趣度的研究

4.网络结构中的数据挖掘

社会网络

计算机网络的挖掘（检测异常、需要处理大规模的以太网链接：检测、跟踪、丢弃信息包）

5.移动计算环境下的数据挖掘

移动计算环境下数据挖掘技术的发展方向

面向用户

构建人性化的人机交互方式

可以处理动态数据的主动式数据挖掘系统

移动计算环境下数据挖掘的主要应用有：

用户移动模式挖掘

基于数据挖掘的位置管理

6.生物信息的数据挖掘

新的状况产生新的问题

特别的大规模问题：生物数据挖掘，如HIV疫苗设计，DNA，化学属性，3D结构，功能属性->需要融合

7.挖掘结果的可视化显示

8.安全、隐私和数据完整性

9.处理非静态、不稳定和成本敏感的数据

有的数据库高度不稳定

有很多成本和获益的信息，但是没有一个全面的模型来描述盈利和亏本

数据可能包含样本代入的倾向性

学习笔记——数据挖掘过程与方法 Data Mining

数据挖掘基本概念

与数据库技术的区别

数据挖掘过程

详细过程

数据挖掘的数据类型