（二）读懂逻辑回归结果 —— 哪个变量值得关注

本文讨论了回归系数表的一个最重要的用途——确定哪个变量起作用。这是五篇讨论逻辑回归结果系数表及其用途系列的第二部分。

回归系数表用途 #1：确定哪个变量值得关注

你可以通过查看回归系数的p值哪个变量在逻辑回归中起作用。Kid Creative逻辑回归的系数表如下：

其中p值为第四列标记为 P(>| z |)的数值。一般认为，p值小于0.05的自变量是显著的，也就是说，有统计学证据表明该变量会影响因变量为1的概率（即顾客购买杂志）。概括来说，对于给定的显著水平 a，若p值小于 a，则该变量在 a水平有显著差异。
如果我们检查上述逻辑回归结果中的p值，会发现以下变量在5%水平具有显著差异：

Income：p值为0.0000。这表明有很强的统计学证据表明收入和顾客购买杂志（Y = 1）的可能性相关。
Is_Female: p值为0.0004。因此有很强的统计学证据表明女性购买的可能性更大。
Minors：p值为0.0145。这意味着有很强的统计学证据表明，如果家庭中有未成年人，顾客购买的可能性更大。
White：p值为0.0006。表明白人顾客比非白人顾客购买的可能性更大。
PrevChildMag：p值为0.0287。表明之前购买过其他儿童杂志的顾客更有可能购买该杂志。

如果我们将显著水平放宽到0.1，则除上述变量外，ResidenceLength、Own、English这三个因素也与因变量相关。

在结束本文之前，我想提醒你几件事。首先，当我们说某个自变量不相关，意味着其相应的回归系数（beta）为0。因此以上关于自变量是否相关的讨论，实际上讨论的是统计假设检验是否显示回归系数不为0（原假设 beta = 0）。其次，评估一个自变量的影响是以其他自变量为条件的。因此，当我们说没有显著的统计学证据表明顾客是否就业与购买与否相关，意思是没有证据表明在这个逻辑回归模型中该变量比其他变量（包括收入，它可能吸收了一部分就业状态的影响）更要紧。如果只建立一个只纳入就业状态的回归模型，可能得到一个完全不同的结果。
这里我试了一下，只用就业状态一个变量：

可以看到p值变小了很多，说明之前的模型中，就业状态的影响确实被其他变量分流了一部分。

（二）读懂逻辑回归结果 —— 哪个变量值得关注

回归系数表用途 #1： 确定哪个变量值得关注

猜你喜欢

回归系数表用途 #1：确定哪个变量值得关注