数学模型漫谈

线性回归（Linear Regression）研究的是一个或多个变量与另一个连续型随机变量之间的相关关系的模型。线性回归在进行参数估计时实际上使用了最小二乘估计法。我们通常认为最小二乘法的发明者是高斯，实际上第一个将其发表的人是勒让德。

基于最小二乘估计法的线性回归叫作“BLUE”（Best Least Unbiased Estimator），虽然它有很多优点，但是也有一些类似极致敏感的缺点。

从机器学习的角度看，统计学家所说的“Estimator”其实解决的是损失函数的最优解问题。为了改进最小二乘估计法，很多科学家都做出了贡献，比如岭估计（Ridge Estimator）、LASSO（Least Absolute Shrinkage and Selection Operator）、弹性网（Elastic Net）等。然而，这些方法并不是总是最优，而是在某些特定应用场景下较优。

在实际应用中，人们很快发现我们分析的目标并不总是一个连续型变量，在更多情况下是二元结果，比如好人/坏人、下雨/不下雨，等等。这时，线性回归已经无法发挥作用了，我们用到的模型变成了逻辑回归（Logistic Regression）。

对于线性回归而言，它的公式一般是这样的：

y=ax+b+ε

这里的残差项（residual）是服从正态分布的。

线性回归输出的是一个连续的程度，但是在很多场景下，我们需要的是一个事件发生的概率：

P（y>0）或P（y≤0）

由于残差项是服从正态分布的，因此

扫描二维码关注公众号，回复： 2580717 查看本文章

正态分布的分布函数是没有表达式的，只能用一个复杂的积分来表示，但如果残差服从的是标准逻辑分布，那这个公式马上就简单多了，

也就是说，

两边取自然对数，

这其实就是我们所说的逻辑回归，我们一般也把它叫作“优势比”（odds ratio），而P(y>0)也就是Y=1的概率，这里的Y就是二元目标变量。

逻辑回归中的变量如何解释？

因为ax+b与Y=1的概率成正比，因此，对于特征x，只要a是正值，就意味着x越大，P(Y=1)越大。

如何知道个体分值高低的原因？

对于分值函数score=f(a1×1)+f(a2×2)+f(b)，只要看|f(ax)|的大小就可以知道哪一个特征的贡献比较大。

在实际运用中，还有一个要考虑的因素，那就是群体中某个特征的平均贡献度。也就是说，只要某个特征在个体上的贡献度与群体平均值一致，就算贡献度再大，从群体角度来看，这个特征也不是造成个体分高低的直接原因，那些明显偏离群体平均值的特征反而比较可疑。

从机器学习角度来看，逻辑回归实际上是介于Rosenblatt感知器和自适应线性神经网络之间的一种网络，也就是说逻辑回归是一种早期的神经网络。

与Rosenblatt感知器相比，逻辑回归用sigmoid函数代替了阶跃函数（Heaviside）。但是，与ADAline相比，逻辑回归又少了Quantizer的部分。

早期的机器学习就是表面意义上的机器学习，Rosenblatt感知机是由Frank Rosenblatt在1957年在Cornell航空实验室（Cornell Aeronautical Laboratory）工作时发明的一种人工神经网络。

与其他机器学习模型相比，线性回归和逻辑回归最大的差异是统计模型参数估计有显式解（explicit），也就是我们可以通过公式把每一个参数算出来。很多机器学习模型的参数却是通过逼近得到的，我们把这类解叫作隐式解（implicit）。

从最优化的结果来说，显式解通常能够达到“全局最优”（global optimum），通过数值计算出来的隐式解，通常只能找到一个相对较好的“局部最优”（local optimum）。

决策树是一种简单而且使用广泛的算法，属于有监督机器学习中的分类或回归算法。同时，决策树也是一类具有树形决策结构的算法的总称，而不是某种具体的算法。

与其他算法相比，决策树有两个优势：

决策树有良好的可读性或可解释性；

决策树算法在实际应用中的效率很高，在每次分类或预测时仅进行不超过树深度次数的判断运算。

决策树相对简单的算法结构赋予了决策树的优点，也限制了其在一些精度要求较高的场景中的应用。不过，集成学习（ensemble learning）的出现，解决了决策树存在限制的问题，并且非常容易与决策树结合。

不同决策树算法的构造大致相同：

将整体视为一个节点；

遍历每一种分割方式，根据某种指标定义最好的分割方式；

将分开的若干个子节点分别执行上一步操作，直到每个节点满足一定的中止条件。

在生成树的结构后，根据修建条件对其进行修剪。

目前使用的几种主要的决策树算法包括CHAID、CART、ID3和C4.5等。

CHAID，即Chi-squared Automatic Interaction Detection，卡方自动交互检测。卡方检验只针对分类变量，它是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度决定了卡方值的大小。卡方值越大，偏离程度越大。当实际观测值与理论推断值完全相等时，卡方值为零。因此，CHAID算法可以自动地将所有连续型变量变得离散。

CART，即Classification and Regression Trees，分类和回归树。标准的CART只能进行二部分叉。从名称上来看，CART有两种功能，分类树（classification tree）和回归树（regression tree），在做分类时，主要应用的是GINI系数；在做回归时，主要应用的是方差。

ID3，即Iterative Dichotomiser 3，迭代二叉树3代。ID3算法以信息论为基础，以信息熵（entropy）和信息增益为衡量标准，从而实现对数据的归纳和分类。

C4.5是对ID3的改进，核心的改进之处包括：

使用信息增益率而不是信息增益进行分叉判断

在构造树的过程中进行剪枝。

那么，什么是剪枝？

在构造决策树的过程中，为了提高分类或回归的精度，我们常常会把树的分叉设置得非常细，导致节点过多，造成一定程度的过拟合（overfitting）。因此，我们常常会对决策树进行修剪（pruning）。

目前，我们主要使用两种策略进行剪枝：

前置裁剪“中止条件”：设置一定的中止条件，在分叉的过程中进行判断，满足条件即停止。中止条件可以包括树的高度、终端分叉个数、使用特征数、性能增益的绝对量或相对量。

后置裁剪“修剪条件”：在生成整个决策树后，根据一定的规则重新审视整个树，根据某些指标决定是否保留分叉。

什么是机器学习？（上）

什么是机器学习？（下）

人工智能（AI）经历了怎样的发展历程？

猜你喜欢