ML Lecture 5: Classification——Logistic Regression（下）

ML Lecture 5: Classification——Logistic Regression

Logistic回归的缺陷：线性不可分问题/布尔函数异或（XOR）问题

假设有四个样本，它们具有 $2$ 维特征，蓝色代表样本的真实类别为 $C_2$ ，红色代表样本的真实类别为 $C_1$ 。将四个样本点在坐标图上表示：

在二分类问题中，Logistic回归所做的事情是计算 $z = w^T x + b$ 。其中， $w = \left[ \begin{matrix} w_1 \\ w_2 \\ \end{matrix} \right]$ 、 $x = \left[ \begin{matrix} x_1 \\ x_2 \\ \end{matrix} \right]$ 都是 $2$ 维向量。所以：

z = w^{T} x + b = w_{1} x_{1} + w_{2} x_{2} + b

$z = w^T x + b = w_1 x_1 + w_2 x_2 + b$

并将 $z$ 代入到Sigmoid函数转换为一个概率值 $\sigma(z) = y$ 。
当 $y \ge 0.5$ 或 $z \ge 0$ 时，将样本判为第一类。

所以对于上面的样本点应该有：

但 $z = w_1 x_1 + w_2 x_2 + b$ 是一条线性的直线，它只能将二维平面划分为两个区域，一个区域代表样本属于 $C_1$ ，另一个区域代表样本属于 $C_2$ 。而这种线性不可分的样本情况，不是单纯用一条直线就能划分清楚，所以无法用直线 $z = 0$ 进行分类，或者说分类效果不好。这是Logistic回归本身能力问题：即只能做线性分类，增加样本个数也是无法改善分类效果的。

这种情况下，如果要用Logistic回归方法，只能通过特征转换（Feature Transformation），使其变为Logistic回归可以处理的线性分类问题，才能对样本进行分类。即通过特征转换，使得转换后的新的蓝色点、红色点分别落在一条直线的两边。

特征转换的方法（核方法）有很多种，核方法的主要思想是基于这样一个假设：在低维空间中不能线性分割的点集，通过转化为高维空间中的点集时，很有可能变为线性可分的，这里以其中一种为例：

把原来的二维特征 $\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right]$ 转换为新的二维特征 $\left[ \begin{matrix} x_1^{'} \\ x_2^{'} \end{matrix} \right]$ ，其中：
$x_1^{'}$ 表示 $\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right]$ 与 $\left[ \begin{matrix} 0 \\ 0 \end{matrix} \right]$ 之间的距离
$x_2^{'}$ 表示 $\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right]$ 与 $\left[ \begin{matrix} 1 \\ 1 \end{matrix} \right]$ 之间的距离
通过这种转化，蓝色点、红色点分别落在新的位置上，并且是线性可分的：
$[\begin{matrix} 0 \\ 1 \end{matrix}] \to [\begin{matrix} 1 \\ 1 \end{matrix}]$ $\left[ \begin{matrix} 0 \\ 1 \end{matrix} \right] \to \left[ \begin{matrix} 1 \\ 1 \end{matrix} \right]$ $[\begin{matrix} 1 \\ 0 \end{matrix}] \to [\begin{matrix} 1 \\ 1 \end{matrix}]$ $\left[ \begin{matrix} 1 \\ 0 \end{matrix} \right] \to \left[ \begin{matrix} 1 \\ 1 \end{matrix} \right]$ $[\begin{matrix} 1 \\ 1 \end{matrix}] \to [\begin{matrix} \sqrt{2} \\ 0 \end{matrix}]$ $\left[ \begin{matrix} 1 \\ 1 \end{matrix} \right] \to \left[ \begin{matrix} \sqrt 2 \\ 0 \end{matrix} \right]$ $[\begin{matrix} 0 \\ 0 \end{matrix}] \to [\begin{matrix} 0 \\ \sqrt{2} \end{matrix}]$ $\left[ \begin{matrix} 0 \\ 0 \end{matrix} \right] \to \left[ \begin{matrix} 0 \\ \sqrt 2 \end{matrix} \right]$

而如何对特征做转化并非很直觉地就能判断出来，通常需要一些专业知识辅助决策。

核方法下的Logistic回归

前面通过核方法做特征转换后，新的二维特征使得样本点变得线性可分，从而能用Logistic回归方法做分类。从“特征转换 $\to$ 分类”的整个过程，可以看成是很多个Logistic回归相叠加的结果。

原来的样本特征 $\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right] \to x_1^{'}$ 的过程，可以视为一个Logistic回归（蓝色）完成的：它的输入是 $x_1$ 、 $x_2$ ，输出是 $x_1^{'}$
原来的样本特征 $\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right] \to x_2^{'}$ 的过程，可以视为另外一个Logistic回归（绿色）完成的：它的输入是 $x_1$ 、 $x_2$ ，输出是 $x_2^{'}$
新特征 $\left[ \begin{matrix} x_1^{'} \\ x_2^{'} \end{matrix} \right]$ 使样本变得线性可分，这个分类过程是红色Logistic回归完成的：它的输入是 $x_1^{'}$ 、 $x_2^{'}$ ，它的输出是概率值 $y$

下面举例说明特征转换的过程确实可以通过Logistic回归完成。对于样本点：

[\begin{matrix} 0 \\ 0 \end{matrix}] ， [\begin{matrix} 0 \\ 1 \end{matrix}] ， [\begin{matrix} 1 \\ 1 \end{matrix}] ， [\begin{matrix} 1 \\ 0 \end{matrix}]

$\left[ \begin{matrix} 0 \\ 0 \end{matrix} \right]，\left[ \begin{matrix} 0 \\ 1 \end{matrix} \right]，\left[ \begin{matrix} 1 \\ 1 \end{matrix} \right]，\left[ \begin{matrix} 1 \\ 0 \end{matrix} \right]$

假设蓝色Logistic回归的参数为： $b = -1$ ， $w_1 = -2$ ， $w_2 = 2$ 。
对每个样本计算 $\sigma(w_1 x_1 + w_2 x_2 + b)$ ，则经过特征转换后，每个样本的第一维特征发生变化：
$[\begin{matrix} 0.27 \\ / \end{matrix}] ， [\begin{matrix} 0.73 \\ / \end{matrix}] ， [\begin{matrix} 0.27 \\ / \end{matrix}] ， [\begin{matrix} 0.05 \\ / \end{matrix}]$ $\left[ \begin{matrix} 0.27 \\ / \end{matrix} \right]，\left[ \begin{matrix} 0.73 \\ / \end{matrix} \right]，\left[ \begin{matrix} 0.27 \\ / \end{matrix} \right]，\left[ \begin{matrix} 0.05 \\ / \end{matrix} \right]$

以上转换过程视为矩阵运算：
$[\begin{matrix} - 2 & 2 & - 1 \end{matrix}] [\begin{matrix} 0 & 0 & 1 & 1 \\ 0 & 1 & 1 & 0 \\ 1 & 1 & 1 & 1 \end{matrix}] = [\begin{matrix} - 1 & 1 & - 1 & - 3 \end{matrix}] \to [\begin{matrix} 0.27 & 0.73 & 0.27 & 0.05 \end{matrix}]$ $\left[ \begin{matrix} -2 & 2 & -1 \end{matrix} \right] \left[ \begin{matrix} 0 & 0 & 1 & 1 \\ 0 & 1 & 1 & 0 \\ 1 & 1 & 1 & 1 \end{matrix} \right] = \left[ \begin{matrix} -1 & 1 & -1 & -3 \end{matrix} \right] \to \left[ \begin{matrix} 0.27 & 0.73 & 0.27 & 0.05 \end{matrix} \right]$
假设绿色Logistic回归的参数为： $b = -1$ ， $w_1 = 2$ ， $w_2 = -2$ 。
对每个样本计算 $\sigma(w_1 x_1 + w_2 x_2 + b)$ ，则经过特征转换后，每个样本的第二维特征发生变化：
$[\begin{matrix} / \\ 0.27 \end{matrix}] ， [\begin{matrix} / \\ 0.05 \end{matrix}] ， [\begin{matrix} / \\ 0.27 \end{matrix}] ， [\begin{matrix} / \\ 0.73 \end{matrix}]$ $\left[ \begin{matrix} / \\ 0.27 \end{matrix} \right]，\left[ \begin{matrix} / \\ 0.05 \end{matrix} \right]，\left[ \begin{matrix} / \\ 0.27 \end{matrix} \right]，\left[ \begin{matrix} / \\ 0.73 \end{matrix} \right]$

以上转换过程视为矩阵运算：
$[\begin{matrix} 2 & - 2 & - 1 \end{matrix}] [\begin{matrix} 0 & 0 & 1 & 1 \\ 0 & 1 & 1 & 0 \\ 1 & 1 & 1 & 1 \end{matrix}] = [\begin{matrix} - 1 & - 3 & - 1 & 1 \end{matrix}] \to [\begin{matrix} 0.27 & 0.05 & 0.27 & 0.73 \end{matrix}]$ $\left[ \begin{matrix} 2 & -2 & -1 \end{matrix} \right] \left[ \begin{matrix} 0 & 0 & 1 & 1 \\ 0 & 1 & 1 & 0 \\ 1 & 1 & 1 & 1 \end{matrix} \right] = \left[ \begin{matrix} -1 & -3 & -1 & 1 \end{matrix} \right] \to \left[ \begin{matrix} 0.27 & 0.05 & 0.27 & 0.73 \end{matrix} \right]$
四个样本点都有了新的特征值：
$[\begin{matrix} 0.27 \\ 0.27 \end{matrix}] ， [\begin{matrix} 0.73 \\ 0.05 \end{matrix}] ， [\begin{matrix} 0.27 \\ 0.27 \end{matrix}] ， [\begin{matrix} 0.05 \\ 0.73 \end{matrix}]$ $\left[ \begin{matrix} 0.27 \\ 0.27 \end{matrix} \right]，\left[ \begin{matrix} 0.73 \\ 0.05 \end{matrix} \right]，\left[ \begin{matrix} 0.27 \\ 0.27 \end{matrix} \right]，\left[ \begin{matrix} 0.05 \\ 0.73 \end{matrix} \right]$ 将其画在二维坐标图上，通过红色Logistic回归进行分类：

总结

综上，尽管Logistic回归没有办法进行非线性的分类，但通过把不同的Logistic回归串接起来：前面的Logistic回归负责特征转换（如第 $1$ 、 $2$ 步），最后一个Logistic回归负责分类（如第 $3$ 步）。

当把所有的Logistic回归串接起来以后，这些Logistic回归的参数是可以同时训练得到的，只要知道输入值、输出值，就可以利用梯度下降，把所有的参数一次性训练出来。

其中，每一个Logistic回归又称为神经元（Neuron），类似于人脑中的神经元。当把许多个神经元串接在一起后，所形成的整体就称为神经网络（Neural Network），由此进入深度学习的范畴。

参考资料：
总结一下遇到的各种核函数~
维基百科：逻辑异或