学习笔记——数据挖掘过程与方法 Data Mining

数据挖掘基本概念

  数据挖掘是一个从大规模数据集中提取隐含的、以前未知的、有潜在应用价值信息的非平凡过程。

 -Non-trivial extraction of implicit , previously unknown and potentially useful information from massive collection of data.  

与数据库技术的区别

 1.数据库技术:从大量的数据里找某个数据,或是简单的数据统计信息。  好比在草堆里找别针。
 2.数据挖掘找的不是一个已存在那里的信息。 好比是要设法搞清楚在草堆里有一根针,会造成什么样的后果。

数据挖掘过程


详细过程

  1. 了解应用领域,掌握相关先验知识以及应用的目标
  2. 收集并集成数据
  3. 对数据进行清洁和预处理
  4. 对数据进行归约和投影(发现有用特征,降维和变量约简)
  5. 确定适当的数据挖掘功能(总计、分类、回归、关联、聚类)
  6. 确定数据挖掘算法,并进行数据挖掘
  7. 对挖掘结果进行评估 
  8. 对挖掘结果进行解释:分析结果
  9. 应用发现的知识

数据挖掘的数据类型

记录型数据

矩阵数据
文本数据
事物型数据

图表型数据

基因图表
网页链接
社交网络
化学式结构数据

顺序型数据

序列化业务


基因序列数据
时空数据

数据挖掘的任务

预言(Prediction Methods)

   -用历史预测未来

描述(Description Methods)

   -了解数据中潜在的规律
  • 分类[ Predictive ]
          分类知识发现是在精选的训练集上进行学习以发现一般的、概括性的、适用于更多事例的分类规则
          在众多的分类知识发现算法中最广泛使用的是分治算法(divide-and-conquer algorthms)
          分治算法归纳生成树状结构,成为决策树。
         
          
         
              
        决策树学习的目标
             基于客户属性,将客户分为不同的子群体(在同一个群体中的例子数据同一个类别)
  • 聚类[ Description ]
             Clustering Definition
           Given a set of data points , each having a set of attributes , and a similarity measure among them , find clusters such that
                    Data points in one cluster are more similar to one another
                    Data points in separate clusters are less similar to one another.
           Similarity Measures:
                 -Euclidean Distance if attributes are continuous. 欧几里得距离
                            (一定要标准化)量纲的问题   
                              对属性绝对地敏感(可能过于细分)
                 -Other Problem-specific Measures. 一些具体问题方法
                              余弦相似度计算
          聚类的应用:
                    Market Segmentation  市场细分
                    Document Clustering  文本聚类
  • 关联规则挖掘[ Descriptive ]  Association Rule Discovery

           支持度:两件事同时发生的概率

           置信度:一件事发生时另一件事情发生的概率

           应用: Marketing and Sales Promotion    哪种商品可以促进另一种商品的销售
                        Supermarket shelf management  哪些商品适合放在一起
  • 序列模式发现[ Descriptive ]  Sequential Pattern  Discovery
         Definition:
              
        Examples
           
        应用:
              网页搜索时旁边的推荐
  • 社团挖掘[ Descriptive ]
            
  • 文本挖掘[ Predictive ]

SVMs机器 (Support Vector Machines)

   SVMS are a rare example of a methodology where geometric intuition , elegant mathematics , throretical guarantees , and practical use meet.
   四个方面: 几何、数学、理论、实践

数据挖掘的一些挑战性问题

1.高维数据和高速数据流挖掘

           超高维分类问题(数百万或数十亿的特征如生物信息数据)

           超高速的数据流

2.有序的和时间序列数据

       如何有效准确地聚类、分类和预测趋势?

       用来预测的时间序列数据有噪声数据干扰

3.从复杂数据中挖掘复杂知识

     图挖掘
     不是独立对等分布的数据
     结合数据挖掘和知识推理
    知识兴趣度的研究

4.网络结构中的数据挖掘

  社会网络
  计算机网络的挖掘(检测异常、需要处理大规模的以太网链接:检测、跟踪、丢弃信息包)

5.移动计算环境下的数据挖掘

  移动计算环境下数据挖掘技术的发展方向

    面向用户
    构建人性化的人机交互方式
    可以处理动态数据的主动式数据挖掘系统

  移动计算环境下数据挖掘的主要应用有:

   用户移动模式挖掘
   基于数据挖掘的位置管理

6.生物信息的数据挖掘

   新的状况产生新的问题
   特别的大规模问题:生物数据挖掘,如HIV疫苗设计,DNA,化学属性,3D结构,功能属性->需要融合

7.挖掘结果的可视化显示

8.安全、隐私和数据完整性

9.处理非静态、不稳定和成本敏感的数据

     有的数据库高度不稳定
     有很多成本和获益的信息,但是没有一个全面的模型来描述盈利和亏本
     数据可能包含样本代入的倾向性

Conclusions:

 

猜你喜欢

转载自blog.csdn.net/Try_my_best51540/article/details/60470013