数据挖掘概述

数据挖掘，采用机器分析和学习的方法来分析数据，挖掘大量数据背后的知识和潜在的信息，涉及人工智能、数据库、统计学、模式识别、知识获取、数据可视化和高性能计算多个学科。
数据挖掘的主要任务：
1.关联：Association挖掘和分析；
2.分类：Classification；
3.聚类分析：Clustering；
4.序列模式分析：Sequential Patterns
5.偏差分析：Deviation Detection

（1）关联规则和分析
应用最广泛的数据挖掘方法，如果数据的两项或多项属性之间存在关联，那么其中一项属性可以依据其他属性预测。关联规则最为著名的是R.Agrawal提出的Apriori算法，分为两步：
    1.识别所有的频繁项目集，即支持度不低于用户设定的最低支持度的项目集；
    2.从频繁项目集中构造信任度不低于用户设定的最低信任度的规则
（2）分类
    对给定的数据的分析和学习，对未知的数据进行类别划分。包含四个要素：
   1.给定一个数据集合或者成为训练集，每个数据应该包含一组特征，每个特征是我们定义的“类”；
    2.发现或者构造分类函数或分类模型，其变量为上面提到的特征；
    3.目标：对于没有见过的数据，分类函数或者模型能够给出尽量准确的类别；
    4.为了检验，引入检验集对构造的函数和模型检验，测试敏感度和准确度。
    决策树、选择树是常用的构造分类器的方法
（3）聚类分析
    通过数据间的相关性和差异性建立规则，根据这些规则将数据进行类别的划分，包括三个要素：
    1.差异性的定义，
    2.聚类算法和条件的选择；
    3.用来聚类的赝本的差异和相似性分布。
    聚类的关键是确定数据之间的相似程度和差异性的计算策略。
（4）序列模式分析
    把数据之间的关联性与时间联系起来，重点在于分析数据间的前后关系。
（5）偏差分析
    从数据中挑出有异常特征的记录。包括分类中的反常实例、不满足规则的特性、观测结果与模型预测值的偏差、量值随时间的变化。

数据挖掘常用技术

1.人工神经网络（Artificial Neural Networks），通过计算机对人脑或自然神经网络若干基本特性的抽象和模拟来实现。神经网络主要包括：多层网络（Multi-Laer Preceptron neural network）、BP算法、hopfield网络模型。自适应共振理论、自组织特征映射理论等。
    神经网络在数据挖掘的应用主要集中在分类和异常分析上，因为神经网络可以从大量数据中提取数据的共同特征，对待检测的数据进行识别。
2.统计分析
    数据挖掘的大部分数据是泊松分布的，在数值比较大时，分布可以通过高斯分布描述。

猜你喜欢