分类问题种类
分类问题种类
- 二分类:
逻辑回归(logistic regression)
Fisher线性判别分析 — LDA - 多分类
Spss中的多分类线性判别分析和多分类逻辑回归操作
二分类
将定性变量->数值变量 — Spss使用虚拟变量
创建虚拟变量:
- 引入虚拟变量的个数一般为分类数 - 1
比如:定性变量(男/女),有两个分类,所以设置一个虚拟变量(0男,1女) - 比如有两类水果:会新增三个变量(两个是变量对应样本标签为两类水果,还有一个标签对应要代表测试集和训练集)
对于二分类,可能要经过修改新增的标签来得到虚拟变量
逻辑回归(logistic regression)
- 因变量:类别(为数值)
- 协变量:自变量
逐步回归 — 一般是向后逐步回归
-
如果不使用逐步回归,选择输入按钮
界面中的分类按钮 — 选择定性变量并选择对照组
界面中的保存按钮
- 概率
二分类中, y = = 1 y==1 y==1发生的概率 - 组成员
分类的结果,预测样本属于哪一组
界面中的选项按钮
- 进入
使用向前逐步回归时,进入的概率 - 除去
使用向后逐步回归时,除去的概率
结果分析
- y ^ \hat{y} y^ 二分类下,为该样本为 y = = 1 y==1 y==1的概率
预测结果差
但注意可能会过拟合
扫描二维码关注公众号,回复:
12276098 查看本文章
Fisher线性判别分析 — LDA
- 分组变量:根据哪个变量的值进行分组
要定义范围
统计按钮
分类按钮
- 摘要表:可以得到分类的准确率
保存按钮
- 预测组成员:二分类预测的结果是0还是1
- 组成员概率:属于1的概率和属于0的概率
多分类
Fisher线性判别分析 — LDA
假设有四类
仅需要修改 定义范围 即可
逻辑回归(logistic regression)
保存按钮
- 估算响应概率:对于每一种类别的概率
选项按钮
- 使用逐步回归后可以调整
条件按钮
结果分析
- 典则判别函数系数
如果是n分类,则用于划分的平面个数有n-1个,则有n-1个函数
检测过拟合