(二)读懂逻辑回归结果 —— 哪个变量值得关注

本文讨论了回归系数表的一个最重要的用途——确定哪个变量起作用。这是五篇讨论逻辑回归结果系数表及其用途系列的第二部分。

回归系数表用途 #1: 确定哪个变量值得关注

你可以通过查看回归系数的p值哪个变量在逻辑回归中起作用。Kid Creative逻辑回归的系数表如下:

1719634-149d27cc329b41c3.png

其中p值为第四列标记为 P(>| z |)的数值。一般认为,p值小于0.05的自变量是显著的,也就是说,有统计学证据表明该变量会影响因变量为1的概率(即顾客购买杂志)。概括来说,对于给定的显著水平 a,若p值小于 a,则该变量在 a水平有显著差异。
如果我们检查上述逻辑回归结果中的p值,会发现以下变量在5%水平具有显著差异:

  1. Income:p值为0.0000。这表明有很强的统计学证据表明收入和顾客购买杂志(Y = 1)的可能性相关。
  2. Is_Female: p值为0.0004。因此有很强的统计学证据表明女性购买的可能性更大。
  3. Minors:p值为0.0145。这意味着有很强的统计学证据表明,如果家庭中有未成年人,顾客购买的可能性更大。
  4. White:p值为0.0006。表明白人顾客比非白人顾客购买的可能性更大。
  5. PrevChildMag:p值为0.0287。表明之前购买过其他儿童杂志的顾客更有可能购买该杂志。

如果我们将显著水平放宽到0.1,则除上述变量外,ResidenceLength、Own、English这三个因素也与因变量相关。

在结束本文之前,我想提醒你几件事。首先,当我们说某个自变量不相关,意味着其相应的回归系数(beta)为0。因此以上关于自变量是否相关的讨论,实际上讨论的是统计假设检验是否显示回归系数不为0(原假设 beta = 0)。其次,评估一个自变量的影响是以其他自变量为条件的。因此,当我们说没有显著的统计学证据表明顾客是否就业与购买与否相关,意思是没有证据表明在这个逻辑回归模型中该变量比其他变量(包括收入,它可能吸收了一部分就业状态的影响)更要紧。如果只建立一个只纳入就业状态的回归模型,可能得到一个完全不同的结果。
这里我试了一下,只用就业状态一个变量:

1719634-1d825351a85e96b6.png

可以看到p值变小了很多,说明之前的模型中,就业状态的影响确实被其他变量分流了一部分。

猜你喜欢

转载自blog.csdn.net/weixin_33709364/article/details/87634798