逻辑回归(Logistic回归)模型的建模步骤如下:
1、根据分析目的,设置指标变量(因变量和自变量),然后收集数据。
2、建立模型。
y取1的概率是,取0的概率是1-p。用和自变量列出线性回归方程,估计模型中的回归系数。
3、模型检验。
可以采用逐步回归法,首先剔除最不显著的自变量,重新构造回归方程,直到模型和回归系数都通过检验。不显著需要重新选择指标变量,建立回归模型。
4、模型应用。
输入自变量的取值,可以得到预测变量的值。
以某银行在降低贷款拖欠率的数据举例:
colnames(data) = c('x1','x2','x3','x4','x5','x6','x7','x8','y') #设置自变量和因变量
glm = glm(y~x1+x2+x3+x4+x5+x6+x7+x8,family = binomial(link = logit),data=data) #建立逻辑回归模型
summary(glm)
输出结果如下:
可以看到x2、x5、x8三个变量的p值大于显著性水平(取0.05)。
采用逐步回归法进行变量剔除,即逐步剔除掉最不显著的自变量。
logit.step1 = step(glm,direction = 'both')
summary(logit.step1)
输出结果如下:
可以看到剔除了x2、x5、x8这三个变量,最终的模型构建完成。