机器学习__线性模型

上一次看《机器学习》已经是很久之前了，很多都记得模糊了，所以最近认真的再复习一遍。

一，线性回归（Linear Regression）

线性回归是一种有监督模型，线性回归试图使用一个线性方程来对数据进行拟合从而达到比较好的预测输出（形如 $y = \vec w x+b$ ）。

首先给定数据集的表示形式

$D= \{(\vec x_1,y_1), (\vec x_2,y_2),\cdots ,(\vec x_m,y_m)\}$

其中 $\vec x_i = \{x_{i1},x_{i2},x_{i3},\cdots ,x_{id}\}, y\in R$

那么我们的目标就是用：

$y=f(x)=\vec w^T x + b$ 来对训练数据进行拟合

我们可以进一步简化形式，令 $b$ 融合到 $\vec w^T$ 当中。令 $\vec w = \{w_1,w_2,\cdots,w_d,b\}, \vec x = \{x_{i1},x_{i2},x_{i3},\cdots ,x_{id},1\}$

那么我们的目标拟合方程可以表示为 $y=\vec w x$

现在机器学习三要素的模型有了，但是我们还缺少目标函数和优化算法，我们先来确定目标函数。

在这里我们使用最常用的平方误差作为目标函数，即我们要优化的目标是

$Min \sum_{i=1}^{m} (f(x_i)-y_i)^2$ 即 $Min (\vec W^T\vec X -\vec y)^T(\vec W^T\vec X -\vec y)$

在这里我们要对上式求得使其最小的 $\vec W$ 值，那么对 $\vec W$ 进行求导得到

$\frac{\rm d}{\rm d \vec w} = 2(\vec W^T\vec X-\vec y)X$

令上式为零，可以得到最优解，但是因为涉及到矩阵求解，所以有必要讨论不同的情况。

（1）当 $\vec X^T\vec X$ 为满秩矩阵或正定矩阵，上式有唯一解，唯一解为 $\vec w^* = (\vec X^T\vec X)^{-1}\vec X^T\vec y$

（2）然而现实情况下， $\vec X^T\vec X$ 往往不是满秩矩阵，这个时候能接触多个解，他们都能使得均方误差最小化，如何选择往往要取决于算法的归纳偏好（归纳偏好往往由正则化项表示）。

广义线性回归模型

在基本线性回归模型上存在有广义线性模型 $y = g(\vec w^T \vec x +b)$ ， $g(\cdot)$ 为联系函数，将基本线性模型的输出进行非线性的映射到输出空间。

二，逻辑回归（Logistic Regression）

在上一小节，描述了基本线性回归模型进行回归问题的解决，但是如果要做分类任务呢？
这个时候我们需要利用广义线性回归模型，如果我们将线性回归模型的输出利用一个单调可微（因为在优化算法中要求该联系函数为可微的才可以求解，至于为什么需要单调，我还表述不清楚）的联系函数做一个非线性的映射，那么我们就可以将分类标签和线性回归模型输出值联系，解决分类问题。

考虑基本的二分类任务，

$D= \{(\vec x_1,y_1),(\vec x_2,y_2),\cdots ,(\vec x_m,y_m)\}, \vec x_i = \{x_{i1},x_{i2},x_{i3},\cdots ,x_{id}\}, y = \{0,1\} 或者 y= \{-1,1 \}$

现在我们已经有了基本线性回归模型 $y = \vec w \vec x+b$ 那么问题是我们应该怎么把线性回归模型的输出和二分类任务的标签值联系起来呢？
直观的来讲我们可以使用单位阶跃函数，也就是下面的映射

即预测值 $f(x)>0，label=1；f(x)<0，label=0$ 这个函数是我们常见的阶跃函数（0.5视为过渡值，预测值为0的时候可以任意判别，这是与单位阶跃函数的唯一区别）。

但是这个直观的方式存在问题，它是非凸非连续的，不便于优化算法求解，因此我们可以考虑一个起到类似作用的替代的单调可微的函数，在这里我们选择Sigmoid函数（至于选择的原因在后面会进行说明），其形式如下

$y=\frac{1}{1+e^{-f(x)}}$

可以看出Sigmoid函数将线性回归函数的输出映射到一个 $(0,1)$ 范围内的实值，并且在0附近较为敏感，将Sigmoid作为联系函数 $g(\cdot)$ 代入得到：

$f(x) = \frac{1}{1+e^{-(\vec w^{T}x+b)}}$

上式可以作一个变换为 $\ln\frac{y}{1-y} = \vec w^Tx +b$ ，如果将y视为样本x为正样例的可能性，那么1-y其实是其反样例的可能性，两者的比值 $\frac{y}{1-y}$ 就是几率(odds)，反映了x作为正样例的相对可能性，对其取对数，即对数几率。

这样可以看出我们其实是在用对数几率作为联系函数，实际上我们是在使用线性回归模型的预测结果去逼近真实标签的对数几率，因此被称为对数几率回归（注意虽然名字有回归，但是它是一个分类学习方法）

这这里这种方法主要有三个优点：（1）直接对分布的可能性进行建模，没有假设数据分布，避免了假设分布带来的问题；（2）不仅仅是预测类别而是得到近似概率的预测值，因此可以用在很多需要概率值的任务当中；（3）对率函数是任意阶可导的凸函数，有很好的数学性质，很多数值优化算法都可以直接对其进行最优值求解。

下面我们对对率回归模型进行参数估计，在这里我们使用最大似然估计。

$P(y=1|x;\vec w) = f_w(x)$

$P(y=0|x;\vec w) = 1-f_w(x)$

首先得到概率函数为

$P(y|x;\vec w) = (f_w(x))^y*(1-f_w(x))^{1-y}$

因为m个样本彼此相互独立，因此他们的联合分布可以表示为各边际分布的乘积，取似然函数为

$L(\vec w) = \prod_{i=1}^{m}P(y^i|x^i;\vec w)$

$L(\vec w) = \prod_{i=1}^{m}(f_w(x^i))^{y^i}*(1-f_w(x^i))^{1-y^i}$

然后对其取对数得到

$l(\vec w) = \sum_{i=1}^{m} y^i \ln(f_w(x^i)) +(1-y^i) \ln(1-f_w(x^i))$

在这里是要求上式的最大值，但是一般而言优化目标是求最小值，因此我们对上式求解其负值的最小值即可。

参数求解常用的方法是梯度下降法（GD）和牛顿法。在这里就不展开细节了。

PS. 为什么LR模型要使用Sigmoid函数？在这里因为公式过多，我就直接引用我在知乎看到的一篇回答了。

整体推导思路大概是这样的：

首先，我们在建模预测 $Y|X$ ，并认为 $Y|X$ 服从 $bernoulli distribution$ ，所以我们只需要知道 $P(Y|X)$ ；其次我们需要一个线性模型，所以 $P(Y|X) = f(wx)$ 。接下来我们就只需要知道 f 是什么就行了。而我们可以通过最大熵原则推出的这个 $f$ ，就是Sigmoid。
推导过程如下：

设 $\pi()$ 是我们的 LR 概率预测函数 $f$ ，那么它应该满足一下三个条件：

非负： $\pi(x)_{v} \ge 0$
和为 1 ： ${\sum}_{v=1}^{k}\pi(x)_{v} = 1$
值越大越好，表明预测值和原标签越匹配： $max\ \pi(x(i))_{y_{(i)}}$
对于二分类任务的 LR， $w$ 是权重系数，一般有，

$\pi(x(i))_1 = \frac{1}{1+e^{-w \cdot x}}$

但更一般的情况，我们认为用这种方式来表示更容易理解，对 $k$ 个分类的任务，表示第 $v$ 个分类的概率得分

$\pi(x(i))_v = \frac{e^{w_v\cdot x}}{\sum_{u=1}^{k}e^{w_u \cdot x}}$

那么，对于大小为 m 的数据集 $x_i,{i=1,2,...,m}$ ，概率预测函数 $\pi(x_i)$ 的目的是为了让模型更加接近数据真实的情形，用公式可以这样来表达（前提是假设数据彼此之间相互独立）：

\begin{matrix} (28) & \prod_{i = 1}^{m} π (x_{i})_{y_{i}} \end{matrix}

$\begin{equation} \prod_{i=1}^{m} \pi(x_i)_{y_i} \end{equation}$

然而上式累乘很容易造成数值的下溢，等价地，我们取它的对数形式，并求使其最大化的参数矩阵 $w$ ，目标函数如下：

\begin{matrix} (26) & f (w) = \sum_{i = 1}^{m} l o g (π (x_{i})_{y_{i}}) \end{matrix}

$\begin{equation} f(w) = \sum_{i=1}^{m}log(\pi(x_i)_{y_{i}}) \end{equation}$

对目标函数求 $w$ 的偏导数， $u=(1,2,...,k),j=(1,2,...,n)$ ，有

\begin{matrix} (72) & \begin{aligned} \frac{\partial f (w)}{\partial w_{u, j}} & = \frac{\partial}{w_{u, j}} \sum_{i = 1}^{m} l o g (π (x_{i})_{y_{i}}) \\ = \sum_{i = 1}^{m} \frac{1}{π (x_{i})_{y_{i}}} \frac{\partial}{\partial w_{u, j}} π (x_{i})_{y_{i}} \end{aligned} \end{matrix}

$\begin{equation}\begin{split} \frac{\partial{f(w)}}{\partial{w_{u,j}}} &= \frac{\partial}{w_{u,j}}\sum_{i=1}^{m}log(\pi(x_i)_{y_{i}}) \\ &=\sum_{i=1}^{m}\frac{1}{\pi(x_i)_{y_{i}}}\frac{\partial}{\partial w_{u,j}}\pi(x_i)_{y_{i}} \end{split}\end{equation}$

在进行下一步之前，这里先停一下，对于 $k$ 分类的情形，系数矩阵 $w$ 的大小为 $(n×k)^T$ ，对应每个类别都会有一个概率得分，所以得分两种情形，预测值等于真实情况和不等于真实情况

①：当 $u = y_i$ 的时候：
$\frac{\partial}{\partial w_{u,j}}\pi(x_i)_{y_{i}}=x_j\pi(x_i)_{u_{i}}(1-\pi(x_i)_{u_i})$
②：当 $u\neq y_i$ 的时候：
$\frac{\partial}{\partial w_{u,j}}\pi(x_i)_{y_{i}}=-x_j\pi(x_i)_{y_{i}}\pi(x_i)_{u_{i}}$
继续，

\begin{matrix} (42) & \begin{aligned} \frac{\partial f (w)}{\partial w_{u, j}} & = \sum_{i = 1, u = y_{i}}^{m} \frac{1}{π (x_{i})_{y_{i}}} x_{j} π (x_{i})_{u_{i}} (1 - π (x_{i})_{u_{i}}) \\ - \sum_{i = 1, u \neq y_{i}}^{m} \frac{1}{π (x_{i})_{y_{i}}} x_{j} π (x_{i})_{y_{i}} π (x_{i})_{u_{i}} \\ = \sum_{i = 1, u = y_{i}}^{m} x_{j} (1 - π (x_{i})_{u_{i}}) \\ - \sum_{i = 1, u \neq y_{i}}^{m} x_{j} π (x_{i})_{u_{i}} \end{aligned} \end{matrix}

$\begin{equation}\begin{split} \frac{\partial{f(w)}}{\partial{w_{u,j}}}&=\sum_{i=1,u = y_i}^{m}\frac{1}{\pi(x_i)_{y_{i}}}x_j\pi(x_i)_{u_{i}}(1-\pi(x_i)_{u_i})\\ &-\sum_{i=1,u \neq y_i}^{m}\frac{1}{\pi(x_i)_{y_{i}}}x_j\pi(x_i)_{y_{i}}\pi(x_i)_{u_{i}} \\ &=\sum_{i=1,u = y_i}^{m}x_j(1-\pi(x_i)_{u_i})\\ &-\sum_{i=1,u \neq y_i}^{m}x_j\pi(x_i)_{u_i} \end{split}\end{equation}$

令 $\frac{\partial{f(w)}}{\partial{w_{u,j}}}=0$ ，得到如下等式，其中 $I(u, y_i)$ 是指示函数：

\begin{matrix} (73) & \begin{aligned} \sum_{i = 1}^{m} π (x (i))_{u} x (i)_{j} = \sum_{i = 1}^{m} I (u, y_{i}) x (i)_{j} \end{aligned} \end{matrix}

$\begin{equation}\begin{split} \sum_{i=1}^{m}\pi(x(i))_ux(i)_j=\sum_{i=1}^{m}I(u, y_i)x(i)_j \end{split}\end{equation}$

最大熵原理

在李航老师的《统计学习方法》中，解释了最大熵原理是概率模型学习的一个准则，学习概率模型时，所有可能的概率模型中，熵最大的模型是最好的。（最大熵原理认为, 在所有可能的模型中，熵最大的模型）

到目前为止，我们已经得到了三个约束条件：

\begin{matrix} (16) & π (x)_{v} \geq 0 \end{matrix}

$\begin{equation} \pi(x)_{v} \ge 0 \end{equation}$

\begin{matrix} (17) & \sum_{u = 1}^{k} π (x)_{u} = 1 \end{matrix}

$\begin{equation} {\sum}_{u=1}^{k}\pi(x)_{u} = 1 \end{equation}$

\begin{matrix} (44) & \sum_{i = 1}^{m} π (x (i))_{u} x (i)_{j} = \sum_{i = 1}^{m} I (u, y_{i}) x (i)_{j} \end{matrix}

$\begin{equation} \sum_{i=1}^{m}\pi(x(i))_ux(i)_j=\sum_{i=1}^{m}I(u, y_i)x(i)_j \end{equation}$

由最大熵原理，我们的目的是使模型函数的熵最大化， $\pi()$ 的熵等于，

\begin{matrix} (19) & - \sum_{i = 1}^{m} \sum_{u = 1}^{k} π (x (i))_{u} l o g (π (x (i))_{u}) \end{matrix}

$\begin{equation} -\sum_{i=1}^{m}\sum_{u=1}^{k}\pi(x(i))_ulog(\pi(x(i))_u) \end{equation}$

由目标函数和三个约束条件，用拉格朗日乘数法可以轻松解决，建立拉格朗日函数如下：

\begin{matrix} (67) & \begin{aligned} L & = \sum \sum λ (π (x (i))_{u} x (i)_{j} - I (u, y_{i}) x (i)_{j}) \\ + \sum \sum β (π (x)_{u} - 1) \\ - \sum \sum π (x (i))_{u} l o g (π (x (i))_{u}) \end{aligned} \end{matrix}

$\begin{equation}\begin{split} L&=\sum\sum\lambda(\pi(x(i))_ux(i)_j-I(u, y_i)x(i)_j)\\ &+\sum\sum\beta(\pi(x)_{u}-1)\\ &-\sum\sum\pi(x(i))_ulog(\pi(x(i))_u) \end{split}\end{equation}$

令 $\frac{\partial}{\partial\pi(x(i))_u}L=0$ ，得

$\frac{\partial}{\partial\pi(x(i))_u}L=\lambda x(i)+\beta-log(\pi(x(i))_u)-1$

最终得到

$log(\pi(x(i))_u)=\lambda \cdot x(i)+\beta-1$

更一般地，回到熟悉简单的二分类情形，

$log\frac{y}{1-y} = \lambda \cdot x(i)+\beta-1$

解得，

$y=\frac{1}{1+e^{ \lambda \cdot x(i)+\beta-1}}$

如果仍然觉得有困惑，可以看看原文中推导。

为什么 LR 模型要使用 Sigmoid 函数，背后的数学原理是什么？ -李彬的回答 - 知乎

三，线性判别分析（Linear Discriminant Analysis，简称LDA）
LDA是一种经典的线性学习方法，最早由Fisher在二分类的问题上提出，因此有时候也被叫做Fisher判别分析。

LDA的整体思想是非常直观的：给定训练的样本集，设法将样本投影到同一条直线上，使得同类样例的投影点尽可能近，异类样例投影点尽可能远。当新的样本需要被分类时，将其投影到该直线上，根据投影点的位置来确定新样本的类别。