数据分析学习总结笔记08:数据分类典型方法及其R语言实现


统计建模与数据挖掘中面对的三大重要问题:预测、分类和 聚类。本文学习总结其中的分类问题,主要介绍判别分析方法和logistic回归,这两种方法在现实应用中也十分普遍。

1 判别分析

1.1 判别分析简介

1.1.1 判别分析概念

判别分析(Discriminat Analysis)是多元分析中用于判别样本所属类型的一种统计分析方法。

  • 在已知的分类之下,对新的样本,可以利用此方法选定一判别标准,以判定将该新样品放置于哪个类中。
  • 适用于数据集较小的情况,因为数据量够大的话神经网络的准确率会比传统的判别分析高得多
  • 判别分析的用途甚多:医学疾病诊断、动植物分类、商品等级划分和商业银行客户评级等。

1.1.2 判别分析的种类

(1)确定性判别:Fisher型判别

  • 线性型
  • 距离型
  • 非线性型

(2)概率性判别:Bayes型判别

  • 概率型
  • 损失型

1.2 距离判别法

1.2.1 两总体距离判别

设μ1,μ2,Σ1,Σ2分别为两个类G1,G2的均值向量和协方差阵。

  • 马氏距离(欧式距离只考虑了样本中心点的位置,马氏距离不仅考虑了样本中心点的位置,还考虑了样本各个特征间的相互关系以及样本的度量):
    马氏距离
  • 判别准则
    马氏距离判别准则
    (1)等方差阵:直线判别
    直线判别
    (2)异方差阵:曲线判别
    曲线判别

1.2.2 多总体距离判别

与两总体距离判别类似:

  • 首先假定k个类别样本分属k个正态总体;
  • 然后基于马氏距离,依次建立建立判别函数和判别规则;
  • 基于样本信息,估计判别规则中的未知参数;
  • 带入未知样本信息,判别其类别。

(1)协方差矩阵相同:线性判别
线性判别
(2)协方差矩阵不同:非线性判别
非线性判别

1.3 Fisher 判别法

1.3.1 Fisher 判别法原理

在距离判别法中,向量X的维数较高:

  • 均值、协方差估计中待估参数较多;
  • 导致判别规则中存在较大的误差。

Fisher在1936年提出了Fisher判别法:

  • 把高维空间的点向低维空间投影;
  • 先投影到一维空间上,如果判别效果不理想,再投影到另一条直线上(从而构成二维空间);
  • 以此类推,每个投影可以建立一个判别函数。

即,利用一条过原点的判别函数,使得不同类别在判别函数上投影的距离尽可能大,而同一类别的距离尽可能小。

扫描二维码关注公众号,回复: 10942718 查看本文章

1.3.2 Fisher 判别法步骤

Fisher判别
判别分析

1.4 Bayes 判别法

1.4.1 Bayes 判别法概念

Fisher判别缺陷:

  • 判别方法与各总体出现的概率无关
  • 判别方法与错判后造成的损失无关

Bayes判别准则:

  • 以个体归属于某类的概率(判别值)最大或错判总平均损失最小为标准。

1.4.2 概率判别

概率判别

1.4.3 损失判别

损失判别

1.5 几种判别方法总结

(1)常用的判别方法有Fisher判别、距离判别、贝叶斯判别等,每个方法根据 其出发点不同各有其特点。
(2) Fisher类判别对判别变量的分布类型并无要求,而Bayes类判别要变量的分 布类型。因此,Fisher类判别较Bayes类判别简单一些
(3)当两个总体时,若它们的协方差矩阵相同,则距离判别和Fisher判别等价。 当变量服从正态分布时,它们还和Bayes判别等价。

1.6 Fisher判别R语言操作

1
2
3
4
5
5
6

2 logistic回归

2.1 logistic回归模型设定

考虑因变量y有两个取值的情况,用服从两点分布的随机变量刻画:

  • 因变量y的期望,也就是y=1的概率只能在0和1之间取值;
  • 对模型中的参数添加了限制,给后续的参数估计带来困难;
  • 对因变量的期望做某个单调的变换,使得模型系数可以自由的取值

Logit变换:
Logit变换
logistic回归
logistic回归
Logistic 函数形似"S",是Sigmoid函数的典型代表,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。
在这里插入图片描述

2.2 Logistic回归模型系数估计

系数估计

2.3 Logistic回归模型系数的推断

推断

  • 类似回归模型,我们可以从全模型出发,依次删去不显著的自变量,找到一个最终模型
  • 当有了新的观测
    • 基于其自变量的取值,估计出这个观测对应因变量为1的概率
    • 进一步基于这个概率,对因变量做出预测,也就是对这个观测做出分类

2.3 Logistic回归R语言操作

1
2
3
4
5

相关笔记:

  1. Python相关实用技巧01:安装Python库超实用方法,轻松告别失败!
  2. Python相关实用技巧02:Python2和Python3的区别
  3. Python相关实用技巧03:14个对数据科学最有用的Python库
  4. Python相关实用技巧04:网络爬虫之Scrapy框架及案例分析
  5. Python相关实用技巧05:yield关键字的使用
  6. Scrapy爬虫小技巧01:轻松获取cookies
  7. Scrapy爬虫小技巧02:HTTP status code is not handled or not allowed的解决方法
  8. 数据分析学习总结笔记01:情感分析
  9. 数据分析学习总结笔记02:聚类分析及其R语言实现
  10. 数据分析学习总结笔记03:数据降维经典方法
  11. 数据分析学习总结笔记04:异常值处理
  12. 数据分析学习总结笔记05:缺失值分析及处理
  13. 数据分析学习总结笔记06:T检验的原理和步骤
  14. 数据分析学习总结笔记07:方差分析
  15. 数据分析学习总结笔记07:回归分析概述
  16. 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
  17. 数据分析学习总结笔记09:文本分析
  18. 数据分析学习总结笔记10:网络分析

本文主要根据个人学习(机器学习MOOC有用的统计学MOOC多元统计分析MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!

发布了30 篇原创文章 · 获赞 0 · 访问量 544

猜你喜欢

转载自blog.csdn.net/weixin_41961559/article/details/105287543