数据挖掘(Data Mining)相关概念

数据挖掘:
   从数据中获取知识,辅助科学决策。

   可以发掘埋藏在海量数据中有价值的信息。

   数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又有潜在有用信息和知识的过程。

   数据挖掘算法大都建立在统计学大数定律基础上。
  
   数据挖掘一般处理的是大量数据,但是小样本数据也是可以进行挖掘的。

   不完全数据是说收集的数据中有些数据项没有值。

   噪音数据就是有误的数据,一般对海量数据来说难以避免。

   模糊性是指事物本身从属概念的不确定性(如高矮胖瘦,某数据在一定范围等)。

   随机性是指事件发生与否的不确定性(如某医院一天的门诊记录)。

   数据挖掘应用于数理统计、人工智能、机器学习、神经网络等多个领域。

   数据挖掘从功能上包括关联分析、聚类分析、分类、回归、时间序列分析和偏差甄别等。

关联(association)规则挖掘:
   关联规则是指一个事件与另一个事件之间的依赖关系。
   关联规则挖掘就是发掘数据中的关联关系。
   Apriori算法:
       首先从事件中集中寻找所有频繁出现的事件子集,然后在这些频繁事件子集中发现可信度较高的规则。

聚类
   聚类就是将数据对象划分成若干个类,在同一类中的对象具有较高的相似度,而不同类中的对象差异较大。
   划分方法(Patitioning Method)
     k-means/k-Medoids算法:把n个数据对象划分为k个类,使每个类中的数据点到该类中心的距离平方和最小。
     k-means算法的中心是聚类中所有点的平均值。
     k-Medoids算法的中心点是距离聚类均值最近的点。
   k-means 与 k-Medoids算法只有在簇数据点的平均值有定义的情况下才能使用。对于具有离散属性的数据无法应用。
   k-模/k-原型 算法。
   基于密度的聚类算法:Density-based Method。DBSCAN,OPTICS,DENCLUE。
  
层次聚类方法(Hierarchical Method):
    按数据分层建立簇,形成一棵以簇为节点的树。如果自底向上进行层次聚集则称为凝聚的(Aggalomerative)层次聚类;如果自顶向下进行层次分解,则称为分裂法(Divisive)的层次聚类。


预测
   数据挖掘预测是通过对反映了事物输入与输出之间的关联性(即内在规律的历史数据)的学习,得到预测模型,再利用该模型对未来数据进行预测的过程。

  机器学习:假定事物的输入、输出之间存在一种函数关系y=f(x,β),其中x是待定参数,y=f(x,β)称为学习机器。通过数据建模,由历史输入输出数据学习得到参数β,就确定了具体表达形式y=f(x,β),于是便可以对新的x做预测了。这样的过程称为机器学习。

  典型的机器学习方法有:决策树方法、人工神经网络、支撑向量机、正则化方法。

  决策树方法:
      决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
       所谓决策树就是一个类似流程图的树形结构,树的最高层节点就是根节点,树的每个内部节点代表对一个属性测试,其分支代表测试的每个结果,而树的每个叶节点代表一个类别。从根节点到叶子节点的每一条路径构成一条分类规则。
     典型的决策树算法有:ID3 c4.5 CART等。

  人工神经网络(Artificial Neural Networks, ANNs)
     人工神经网络是对人脑若干基本特征的抽象,它由大量神经元通过丰富的连结构成多层网络,用以模拟人脑功能。
  支撑向量机(Support Vector Machines, SVM)
     支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以求获得最好的推广能力 。

  正则化方法
   Lasso模型,推广的Lasso模型, L1/2正则化模型及其迭代阀值算法。


序列和时间序列
   序列就是被拍成一列的对象或事件,这样每个元素不是在其他元素之前,就是在其他元素之后,元素之间的顺序非常重要。
   对具有时间属性的序列进行分析就得到了时间序列分析。
   时间序列分析是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,从而实现对未来状态的预测。

数据挖掘工具
IBM Intelligent Miner
Unica Model 1
SAS(Statistics Analysis System)
SPSS
IBM SPSS Modeler
WEKA(Waikato Environment for Knowledge Analysis)
 

猜你喜欢

转载自zhuyufufu.iteye.com/blog/1986563