类别预测模型

注：参考资料《统计模型轻松入门-网易云课堂》张文彤
类别预测模型概述
自变量是连续的；而因变量是分类变量。
如果两个自变量，对应就是二维的；
因变量，作为分类变量，可以是两类，也可以是多类，这里，简单地，以两类为例进行分析。
在这里插入图片描述
上图中，横坐标对应自变量 $x_{1}$ ，纵坐标对应自变量 $x_{2}$ ，因变量为两类（红和蓝）的分类变量。
我们期望能够找到一条分界线，从而把两类区别开。要求分得误差（错分的比例/概率）越小越好。

经典判别分析模型/Logistic模型
不过，仅有尽可能小的错分概率是不够的，还要考虑错分的风险尽可能低（各自阵营的点尽可能地离分界线远），也就是，下图中五角星表示重心（可以选取平均值），使得各个重心到分界线的距离尽可能远。

在下面这种情况，可以找到抛物线作分界线。

也可以像下面这样，把二维化成一维（极坐标，圆半径），当超过某圆半径时，算作他类。

例子2：横坐标是孕妇的年龄，纵坐标是孕妇怀孕前的每月饮酒量；
在这里插入图片描述

尽可能曲线直线化
旋转坐标轴。缺点在于需要观察。
降维打击
经典案例：

从花萼的长、宽和花瓣的长、宽中，提取主成分，进行降维分析（4维->2维，需要原变量的线性变换）。
只是，这里降维的目的是使得类间差异最大化。
分类树；树模型
近似（用分段直线近似判别曲线），神经网络
如果点在·直线1的右侧＆直线2的右侧＆直线3的上侧·，那么就把它归为红。
k近邻分析，“近朱者赤近墨者黑”
没有模型，简单；