统计建模与数据挖掘中面对的三大重要问题：预测、分类和聚类。本文学习总结其中的分类问题，主要介绍判别分析方法和logistic回归，这两种方法在现实应用中也十分普遍。

1 判别分析

1.1 判别分析简介

1.1.1 判别分析概念

判别分析（Discriminat Analysis）是多元分析中用于判别样本所属类型的一种统计分析方法。

在已知的分类之下，对新的样本，可以利用此方法选定一判别标准，以判定将该新样品放置于哪个类中。
适用于数据集较小的情况，因为数据量够大的话神经网络的准确率会比传统的判别分析高得多
判别分析的用途甚多：医学疾病诊断、动植物分类、商品等级划分和商业银行客户评级等。

1.1.2 判别分析的种类

（1）确定性判别：Fisher型判别

线性型
距离型
非线性型

（2）概率性判别：Bayes型判别

概率型
损失型

1.2 距离判别法

1.2.1 两总体距离判别

设μ1，μ2，Σ1，Σ2分别为两个类G1，G2的均值向量和协方差阵。

马氏距离（欧式距离只考虑了样本中心点的位置，马氏距离不仅考虑了样本中心点的位置，还考虑了样本各个特征间的相互关系以及样本的度量）：
判别准则：

（1）等方差阵：直线判别

（2）异方差阵：曲线判别

1.2.2 多总体距离判别

与两总体距离判别类似：

首先假定k个类别样本分属k个正态总体；
然后基于马氏距离，依次建立建立判别函数和判别规则；
基于样本信息，估计判别规则中的未知参数；
带入未知样本信息，判别其类别。

（1）协方差矩阵相同：线性判别

（2）协方差矩阵不同：非线性判别

1.3 Fisher 判别法

1.3.1 Fisher 判别法原理

在距离判别法中，向量X的维数较高：

均值、协方差估计中待估参数较多；
导致判别规则中存在较大的误差。

Fisher在1936年提出了Fisher判别法：

把高维空间的点向低维空间投影；
先投影到一维空间上，如果判别效果不理想，再投影到另一条直线上（从而构成二维空间）；
以此类推，每个投影可以建立一个判别函数。

即，利用一条过原点的判别函数，使得不同类别在判别函数上投影的距离尽可能大，而同一类别的距离尽可能小。

扫描二维码关注公众号，回复： 10942718 查看本文章

1.3.2 Fisher 判别法步骤

Fisher判别
判别分析

1.4 Bayes 判别法

1.4.1 Bayes 判别法概念

Fisher判别缺陷：

判别方法与各总体出现的概率无关
判别方法与错判后造成的损失无关

Bayes判别准则：

以个体归属于某类的概率（判别值）最大或错判总平均损失最小为标准。

1.4.2 概率判别

概率判别

1.4.3 损失判别

损失判别

1.5 几种判别方法总结

（1）常用的判别方法有Fisher判别、距离判别、贝叶斯判别等，每个方法根据其出发点不同各有其特点。
（2） Fisher类判别对判别变量的分布类型并无要求，而Bayes类判别要变量的分布类型。因此，Fisher类判别较Bayes类判别简单一些。
（3）当两个总体时，若它们的协方差矩阵相同，则距离判别和Fisher判别等价。当变量服从正态分布时，它们还和Bayes判别等价。