数据挖掘之逻辑回归(R语言)

逻辑回归(Logistic回归)模型的建模步骤如下:

1、根据分析目的,设置指标变量(因变量和自变量),然后收集数据。

2、建立模型。

y取1的概率是p = P(y=1|X),取0的概率是1-p。用ln(\tfrac{p}{1-p})和自变量列出线性回归方程,估计模型中的回归系数。

3、模型检验。

可以采用逐步回归法,首先剔除最不显著的自变量,重新构造回归方程,直到模型和回归系数都通过检验。不显著需要重新选择指标变量,建立回归模型

4、模型应用。

输入自变量的取值,可以得到预测变量的值。

以某银行在降低贷款拖欠率的数据举例:

colnames(data) = c('x1','x2','x3','x4','x5','x6','x7','x8','y') #设置自变量和因变量
glm = glm(y~x1+x2+x3+x4+x5+x6+x7+x8,family = binomial(link = logit),data=data) #建立逻辑回归模型
summary(glm)

输出结果如下:

可以看到x2、x5、x8三个变量的p值大于显著性水平(取0.05)。

采用逐步回归法进行变量剔除,即逐步剔除掉最不显著的自变量。

logit.step1 = step(glm,direction = 'both')

summary(logit.step1)

输出结果如下:

可以看到剔除了x2、x5、x8这三个变量,最终的模型构建完成。

猜你喜欢

转载自blog.csdn.net/zjlamp/article/details/81584757