【数据挖掘学习笔记】5.分类基础

一、特征与分类

特征作用

  • 数据库通常存放大量的细节数据。然而,用户通常希望以简洁的描述形式观察汇总的数据集
  • 提供一类数据的概貌,或将它与对比类相区别
  • 方便、灵活地以不同的粒度和从不同的角度描述数据集

概念描述方法 

  • 数据泛化 
  • 解析特征 
  • 挖掘类比较

数据泛化

数据泛化是一个过程,它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层

解析特征

– 通过属性相关性分析,过滤掉统计不相关或弱相关的属性,保留与挖掘任务最相关的属性

– 数值型相关性

– 非数值型相关性
    • 经验判断

挖掘类比较
– 某些应用可能对单个类(或概念)的描述或特征化不感兴趣
– 希望挖掘一种描述,它将一个类(或概念)与其它可比较的类(或概念)相区分
– 类(或概念)区分或比较挖掘将目标类与对比类相区分的描述
– 比较对象:可比较类(或概念)

特征的关键作用——分类

  • 已知分类特征,对样本进行归类
  • 已知样本分类,抽取类别特征

分类:有监督学习、无监督学习


二、概率基础

概论论是一门研究随机现象数量规律的学科。
个体选择是有各种各样原因的,微观层面难以准确判断,但从宏观层面,群体角度会涌现出一定的规律,并且这个规律在一定时期内保持不变

现在的许多热点问题本质上是一个概率问题

随机试验
– 可以在相同条件下重复进行
– 每次试验的结果不止一个,但结果事先可以预知
– 每次试验前不能确定哪个结果会出现
样本空间、样本点

– 随机试验的所有可能结果的集合称为样本空间。试验的每—个可能结果称为样本点。记为S={e}

随机事件
– 试验E的样本空间S的子集称为试验的随机事件,简称事件。
– 在每次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生。

频率稳定性
– 大量实验证实,当重复试验的次数逐渐增大时,频率呈现出稳定性,逐渐稳定于某个常数
当n足够大时, ƒn(A )≈P(A)

条件概率公式


全概率公式

P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+…+P(A∣Bn)P(B)


三、贝叶斯分类

贝叶斯公式——基本型


贝叶斯公式


贝叶斯决策理论

– 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
– 统计决策模型一种
• 1、已知类条件概率密度参数表达式和先验概率。
• 2、利用贝叶斯公式转换成后验概率。
• 3、根据后验概率大小进行决策

贝叶斯决策模型

– 给定观察到的数据D,在概念空间中找一个最有可能的概念作为目标概念
– 计算贝叶斯公式所需的概率
– 计算后验概率

贝叶斯决策适用条件

– 样本(子样)的数量(容量)不充分大,因而大子样统计理论不适宜的场合。
– 试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。
– 要决策分类的条件划分数是一定的。
– 各种条件的概率分布是已知的,即先验概率P(Di)以及各类概率密度函数P(x/Di)是已知的。显然,0≤P(Di)≤1,(i=l,2,…,L),∑P(Di)=1。

贝叶斯分类

– 独立的类别变量C有若干类别,条件依赖于若干特征变量F1,F2,...,Fn。

– 通过贝叶斯公式计算类别C的概率


贝叶斯分类的实际应用局限性

如果特征数量较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实


当特征Fi与特征Fj不相关时
• P(Fi|C,Fj)=P(Fi|C)

• 重要假设:当特征变量F1,F2,...,Fn不相关时,类别变量C的发生概率可以变换成


朴素贝叶斯分类


其中
– Z=P(F1,F2…Fn),称作证据因子,当特征变量的值已知时是一个常数
– P(C)是类先验概率
– P(Fi|C)是独立分布概率

朴素贝叶斯分类

– 尽管有条件独立性这个非常强的假定,但是在实际应用中却表现出很好的性能。
– 在UCI数据集上的实验表明朴素贝叶斯算法的分类效果与其它分类方法的效果相当。
– 当所处理的数据的属性之间不存在条件独立性时,朴素贝叶斯方法在多数情况仍然选对概率最大的正确类别。
– 并没有在概念(函数或猜想)空间中进行任何搜索,直接通过参数估计构造目标概念(函数或猜想),而通过训练样本很容易获取这些参数的估计值。
– 不能保证与训练样本数据保持一致。
– 抗干扰性好,鲁棒性高。
• 因为并不要求与训练数据完全吻合。即,利用学习出的分类器对训练样本分类时,不能保证完全分对。

贝叶斯网络 Bayesian network (BN)

  • 又称信任网络(belief network)或是有向非循环图形模型(directed acyclic graphical model),是一种概率图型模型,借由有向非循环图形(directed acyclic graphs, or DAGs )中得知一组随机变量{X1,X2…Xn}及其n组条件机率分配(conditional probability distributions, or CPDs)的性质。
  • 节点——随机变量
  • 边——因果关系
  • 节点的条件几率表

贝叶斯网络与朴素贝叶斯

– 朴素贝叶斯可看成一个简单的贝叶斯网络。


– 先验概率P(Y)和条件概率P(Xi|Y)构成了网络的条件几率表。








猜你喜欢

转载自blog.csdn.net/sigmeta/article/details/80775940