几句话梳理Linear Regression、Logistics Regression、Softmax Regression之间的共性与区别

上过吴恩达老师的机器学习课程的都熟悉，吴恩达老师在引出Linear Regression的时候是用了一个房价的例子来说明，这里我们同样拿房价这个量来说事。

首先引出一个增量delta，这个变量往往用来分析某个量（如房价）的真实值与预测值之间的误差，这个误差一般来说，我们认为它是服从正态分布的，因为它是由许多个微小的因素（如采光，地段，交通等因素）的综合影响造成的。

其实在许多实际问题中，很多随机现象都可以看成众多因素的独立影响的综合反应（加性误差），往往近似于正态分布，如果大家还记得中心极限定理的物理意义，那么意义就在这里；当然如果上述误差量是乘性误差，就需要取其对数或做其他处理。

想象一下，泊松分布是不是很像正态分布；多次均匀分布求和在求平均是不是也能得到正态分布，等等。

说到这里，如果你还不是太明白，那我们接着往下看。

首先，建立一个线性模型；

其次，利用MLE（极大似然估计）个高斯分布得到目标函数（至此这里引出了最小二乘学习法）；

注：在这一步中，在1804年高斯曾经反过来推导出了高斯分布，这也是高斯分布的由来。

最后，求取目标函数最小值，这里有两种方法；
–直接计算驻点，但是会涉及到求矩阵的逆；
–梯度下降法，避免了求矩阵的逆；

上面说到，假设参数服从高斯分布，然后利用MLE，得到一个目标函数，再做优化，这就是Linear Regression的基本步骤，那么如果从其引出Logistics Regression呢？好接着往下看。

先来说下二项分布与k项分布；

如果是一个二分类问题，那么很明显可以看成是两点分布；

如果有m个样本点，那么就是一个二项分布，相当于重复m次实验；

那我们来以此类举；

如果是一个多分类问题呢，比如3分类，10分类，甚至更多乃至K类，那么我们可以将其叫做k点分布，哈哈；

同样的，如果有个m个样本点，就可以转化成一个k项分布；

好，我们暂且先记着这两个名字：k点分布和k项分布；

前方高能。。。。。。。。
。。。。。。。。。。。。分割线。。。。。。。。。。。。。。。。

如果我们把Linear Regression中的高斯分布换成k项分布或者多项式分布（注意，k项分布和二项分布都属于多项式分布），其他的不变，这时就变成了Logistics Regression和Softmax Regression；

Logistics Regression是一个二分类，或者叫0-1分类；

Softmax Regression就是一个多分类（0-1-2-…）;

Linear Regression可以对样本是非线性的，但只要对参数是线性的，就可以使用Linear Regression，对于x是否是线性无所谓，但是需要有时候做特征选择；

Linear Regression是连续的，Logistics Regression与Softmax Regression是离散的；

Logistics Regression仍然属于线性回归的范畴，因为分界面是线性的，而且Logistics Regression是广义线性模型（GLM）或者叫对数线性模型（LLM）；

Linear Regression取对数似然的最小，所以在做梯度下降时，往负梯度方向；Logistics Regression则取对数似然的最大，做梯度下降往正梯度方向，但有时为了与线性回归保持一致，通常会取负对数似然；

一般而言，LR指的是Logistics Regression，而非Linear Regression；
Logistics Regression与Softmax Regression是真正做分类的首选，由于方法简单，易于实现，效果良好，易于解释，除了用于分类，还可以用于推荐系统；

在做特征选择的时候要注意，有些时候，并不是特征越多，拟合效果越好；

最后想提一下一个比较特殊的分布—指数族分布；

大多数分布都可以写成指数形式，即：
f(x) = Cexp(Ag(x)+B)

这就是一个指数族分布，如泊松分布，甚至是伯努利分布，都属于指数族分布；提一下，Sigmoid函数就是由伯努利分布的指数族分布中推导计算得来的。

指数族概念的提出，是为了说明广义线性模型（GLM），凡是符合指数族分布的随机变量，都可以用GLM回归来分析。