Logistic回归基本形式

回归形式如下：
$y=\frac{1}{1+e^{-\beta^TX}}$

我们知道，当y正态分布时，有 $y=\beta^TX$ 。但这只适用于y是个连续变量。当y是一个0-1变量，就不再服从正态分布。

对于二值变量，一般认为服从二项分布，即伯努利分布，y的概率分布函数服从：
$f(y,p)=p^{y}(1-p)^{1-y}$ ，其中y=1发生的概率为p。

为什么采用sigmoid函数？

对于二值因变量，是否可以继续使用线性函数表示y和x之间的关系？取决于研究的需求。

在计量经济学中，若仅仅要对y和x之间的关系进行拟合，则使用LPM模型，即仍采用线性回归中的 $y=\beta^TX$ ，也是一种可行措施，只是这样会违背高斯马尔科夫定理中的残差项正态性与同方差性，从而影响参数估计量的方差，从而影响假设检验的准确性。

而在机器学习中，一般要解决的问题是根据x的值对y做预测。用LPM模型的问题是预测的Y可能会超出其实际的（0,1）区间，因此不能用这个模型。

一个直观的解决方式是，构造一个函数g(y)，使 $g(y)\sub(0,1)$ 。

一般机器学习讲logistic回归的教材由此会得出结论，需要采用sigmoid函数形式： $g(y)=\frac{1}{1+e^{-y}}$ 。但满足上述条件的函数形式很多，为什么一定要采取sigmoid函数形式呢？

对此，网上有很多说法，最常说的是这是从广义线性模型中推导出来的。但这种说法其实并不很准确。实际上这种函数形式并不是推导出来的，仅仅是构造出来的。

首先，若要令 $g(y)\sub(0,1)$ ， $g (y)$ 确实可以取多种不同的函数，不仅可以是sigmoid，也可以是正态分布函数的累积分布函数等。使用后者就构造出了计量经济学中常用的probit模型。也就是说，只要这个 $g (y)$ 满足以下条件：值域 $\sub(0,1)$ ；连续且存在反函数即可用来构造二值因变量模型。logistic回归仅为其中的一种。

那么，logistic回归为何在机器学习中经常提及呢？它有什么好的性质呢？简单的说，是因为它能让对模型的估计过程最简单。

广义线性模型

为何要提出？

可以认为，最开始提出的模型是线性回归模型。但可以发现，很多问题并不能用线性回归解决。因此，要对线性模型做一个扩展。一个自然的思路是，对线性函数中的每个y值找一个非线性函数上的映射g(y)。这样，当g(y)=y时，该模型就是线性回归模型（一个好的扩展模型应当可以包含之前的基础模型）。我们知道，描述一个变量，最重要的就是确定它的分布函数，那么，是不是对于所有分布形式的y，我们都可以找到一个这样的映射呢？

首先，对于大部分实际问题，y也就大概这几种分布：Gaussian(normal), Bernoulli, binomial, Poisson, gamma等。因此，我们可以先集中讨论这些常见分布的映射。

指数分布族

R. A. Fisher提出了一个将这些常见分布形式统一的分布函数，又称为“指数分布族”，形式如下：
在这里插入图片描述

其中， $\theta$ 是函数中的canonical parameter（也有版本称为natural parameter）， $\phi$ 是函数中的dispersion parameter。有的分布函数，如Bernoulli分布，只有一个natural parameter，则简化式就是把上式中含 $\phi$ 的两项都去掉。

指数分布族的重要性在于，这个一般分布函数的均值和方差与其中的某项有着固定的关系。因此，当某个分布函数化成这个一般形式后，就可以直接得出其均值和方差。

具体的说， $b^{'}(\theta)=E(Y|X)=\mu$ ; $a(\phi)b^{''}(\theta)=var(Y|X)$
由上述可以得到 $\theta=g_{c}(\mu)$ ，则 $b^{'}(x)$ 和 $g_{c}(x)$ 互为反函数。

以y服从Bernoulli分布为例，以下是Bernoulli分布函数：
$f(y)=p^{y}(1-p)^{1-y}$ , $(y = 0, 1)$
由数学期望公式可以推得 $E(Y|X)=\mu=p$
将该函数化成前述指数分布族形式，将每项对应起来，由于分布函数中只有一个参数，故指数分布函数中也只保留自然参数，则有：
$\theta=ln(\frac{p}{1-p})$ ， $b(\theta)=ln(1-p)$

广义线性模型结构

广义线性模型（GLM）是一个基于线性回归的抽象模型。

GLM由以下3个部分组成：
random component：即y的概率密度函数
linear predictor $\eta$ ： $\eta=\beta^{T}X$
link function $g(\cdot)$ : 将 $\eta$ 和y的期望值联系起来的函数， $g(E(Y))=\eta$

后来有人对GLM进行了扩展，构造了Generalized additive models（广义相加模型），是基于非线性模型，也就是说， $\eta$ 不再是一个标准的线性回归模型，而是：

结合本文要解决的问题（为线性回归的y找一个非线性的映射），实际上我们就是要使用GLM模型的思想构造一个link function $g(\cdot)$ ，使 $\sub (0,1)$ 。则有 $E(Y|X)=f(\beta^{T}X)$ ，其中 $f(\cdot)$ 和 $g(\cdot)$ 互为反函数。

构造link function的思路

已知条件是二值变量的概率密度函数 $p(y;\theta)$ 。这是一个关于y和参数 $\theta$ 的函数，而我们最终的目标是要构造 $E(Y|X)=f(\beta^{T}X)$ ，即要将y和x联系起来。
由前述指数分布族中的内容，
$\theta=ln(\frac{p}{1-p})$
可推出： $p=\frac{1}{1+e^{-\theta}}$
结合bern分布的性质有 $E(Y|X)=p=\frac{1}{1+e^{-\theta}}$
且因为是由bern分布推导出，故一定满足 $E(Y|X)\sub(0,1)$
至此，一个直观的思路是，我们可以将上述步骤中的参数 $\theta$ 令为 $\beta^{T}X$ ，即令 $\theta=\eta，$ 就可以构造出一个令 $E(Y|X)\sub(0,1)$ 的函数 $f(\cdot)$ ，即 $E(Y|X)=\frac{1}{1+e^{\beta^{T}X}}$

可以将这一思路进一步扩展。对于其他指数分布族的函数，当构造其link function时候，都可以令 $\theta=\eta$ 。因为前述GLM的性质， $E(Y|X)=b^{'}(\theta)$ ，则有 $E(Y|X)=b^{'}(\eta)=b^{'}(\beta^{T}X)$
这样，就可以看出， $b^{'}(\cdot)$ 是link function的反函数 $f(\cdot)$
这样构造出的 $f(\cdot)$ 的反函数即是canonical link function。这样的函数形式可以让估计GLM中参数时的式子更简单，证明见下面内容。

极大似然法估计GLM

求导过程就直接引用文献，不重复造轮子了。
在这里插入图片描述

还有一部分定义没截出来，式15.18中 $v(\mu)=b^{''}(\theta)$ 。
由前述指数分布族性质， $E(Y|X)=\mu=b^{'}(\theta)$ 。若构造的是canonical link function，则 $\eta=\theta$ ，因此15.18第二个因子可以化成 $b^{''}(\theta)$ 。
综上，15.18可以简化为：
在这里插入图片描述
可以看到，上式的左边是一个含Y实际值式子的和，右边是含Y期望值式子的和。 $\mu=b^{'}(\eta)$ ，因此，实际上是解令 $F(\beta)=0$ 的时的矩阵 $\beta$ 。虽然这个形式已经很简化了，但F仍然是一个非线性函数。一般需要用迭代法找出其零点。

从这里就可以看出，若构造的不是canonical link function，最终要求解的 $F(\cdot)$ 形式不会有上面这样简单，因而迭代起来速度更慢。

个人理解，这也是为什么机器学习中一般对二值因变量构造预测模型只会提logistic regression而不提probit模型的原因。但在计量经济学中，因为经济学家倾向于认为 $\eta=\beta^{T}X$ 中的 $\eta$ 呈正态分布，而probit模型中对link function的假设可以满足这一条件，因此在计量中，用Probit模型一般更多。

logistic回归为什么采用sigmoid函数——从广义线性函数推导

目录