logistic---从sas逐步回归输出开始

逻辑回归定义事件发生的概率为：
这里写图片描述
其中：

因此对于输入x分类结果为类别1和类别0的概率分别为：

（1）式综合起来可以写成：
这里写图片描述
取似然函数为：

对数似然函数为：

实际求解中通常取 -2log L
求解变量系数就是使用梯度下降法求 -2log L 的最小值，sas logistic 采用牛顿法和Fisher scoring法（默认）。

先说几个概念

1、似然方程

公式-2log L 对于模型参数直接微分，使这些导数等于0 ，得到p+1个等式：
这里写图片描述
这些函数可以写成扩展形式如下：

矢量形式如下：

上式中的矩阵X被称为数据矩阵或设计矩阵，其维度为 n x (p+1)。

这些函数的解是模型最大似然参数估计的向量β。由于这些函数是非线性的，求解它们需要使用迭代的方法。常用牛顿迭代法，如下：
这里写图片描述
I 是函数 -log L对于β的二阶导数的矩阵，即下面的hessian矩阵。

2、信息矩阵（hessian矩阵）

对 - log L 求二阶偏导数，即Hessian矩阵为
这里写图片描述

如果写成矩阵形式，以Ｈ表示Hessian矩阵，
令

则

下面以sas proc logistic的输出为例，计算下统计量指标。

只含截距项的参数统计量：

这里写图片描述

上图包括样本数量，从第0步输入截距开始满足收敛状态表示模型已经输出了变量系数，下面的都是进行模型变量的参数估计、拟合统计量等。

-2log L = -2 * [ n1*ln(n1/n) + n0* ln(n0/n) ]= -2 [(886*ln(886/10615) + 9726 * ln(9726/10615))] =6096.319

截距项的系数来自于先验概率 log（p/1-p）= log (886/9726)=-2.3961

扫描二维码关注公众号，回复： 3066110 查看本文章

然后模型参数估计的部分任务是计算出标准误差，模型参数的方差和协方差由信息矩阵的逆给出这里写图片描述。估计的参数的标准误由对角线元素的平方根给出，即：
参照上式

沃尔德卡方统计量 =（-2.3961/0.0351）^2 = 4662.4021

这里写图片描述

这里写图片描述
筛选变量进入时用的是评分卡方，是否剔除变量时用的是wald卡方（等于极大似然估计时的wald统计量）？？

这里写图片描述

模型拟合统计量:

logistic 模型评估分成几个阶段进行，首先考虑检查似然函数值得统计量。通过与仅含截距项的模型比较，这些统计量可以评估将自变量引入模型的效应。

模型拟合统计量中 -2 log L 就是上面似然函数的对数，分为只含截距项的和截距项加自变量的两个值，这里写图片描述取对数形式并两边同时乘以-2，得到：
除了用 -2 log L 评估模型中所有自变量对模型的贡献，在逐步建模的情况下，还可以用 -2 log L 判断每一个变量被纳入模型时的增加值（注意：-2 log L 是似然函数乘以-2，所以在似然函数越大越好的情况下，-2 logL 越小越好。因此，逐步回归中，模型拟合统计量含自变量的-2 log L最好是越来越小的）。

注意到模型的变量越多，包含和不包含该自变量的 -2 log L 差别越大，即使这些变量的中的某些系数已经接近0，为了惩罚包含大量自变量的模型，制定了以下两个标准：AIC（赤池信息准则）和SC（舒尔茨准则）。舒尔茨准则也被称为贝叶斯信息准则（BIC）。
AIC = -2 log L + 2 r

SC = -2 log L + r ln(n)

检验全局零假设：

零假设β＝0（表示自变量这里写图片描述对事件发生可能性无影响作用）。如果零假设被拒绝，说明事件发生可能性依赖于的变化。通常，样本量越大，自变量和违约变量之间的关联性指标就越强，得到一个所有参数都是0的模型的可能性就越低。
用于检验零假设的统计量有三个：
1.似然比统计量
2.分数统计量
3.wald统计量

似然比统计量这里写图片描述，结果就是上面拟合统计量只含截距项的 -2 log L 减去包含自变量的 -2 log L，等于6096.319-5911.975=184.3449

后面的wald统计量和分数统计量计算参见博文。

这里写图片描述

模型参数的解释：

逻辑回归发生比这里写图片描述即事件发生的概率与不发生的概率之比。而发生比率(odds ration),即
对于自变量，每增加一个单位，odds ration为

因此，优比估计里面的变量name_6点估计实际上就是e^1.189=3.284。因为模型自变量的系数不等于0，所有概率比应该不等于1。如果模型自变量系数为负，概率比小于1。不论变量系数是大于0还是小于0，概率比的置信区间都不应该覆盖1。

参考：
1、logistic回归
2、逻辑回归
3、信用风险评分卡研究:基于SAS的开发与实施【Mamdouh Refaat】