模型建模流程及逻辑回归案例

在这里插入图片描述
在这里插入图片描述
预测性模型
预测性建模基于用户历史信息去预测其将来的行为,从而为市场策略提供一定参考
逻辑/线性回归模型是帮助提高营销活动一个主要工具,能针对用户实现精准营销

建立模型
step-wise:向前,向后或者边向前边向后加入或删除变量

模型评估
VIF(方差膨胀系数)通常控制在2以内
X变量贡献率:看系数
C值(AUC,在ROC曲线下的面积):评价逻辑回归;期望C值能在0.7以上,否则我们认为模型拟合的不好
Lift图
INS/OOD/OOT

逻辑回归数理原理
应用场景
– 逻辑回归被广泛应用在目标变量是二值变量的场合
公式
– P(y=1|x) 表示y=1的概率
– 从而得到y=1对y=0概率的比值
odds=P/(1-P)
– 定义逻辑变换:
logit§=In(odds)=In[P/(1-P)]
logit§=beta+beta(T)*x
模型估计
– 极大似然估计
模型阐述/评估
– 一个解释变量的阐释图
– C值,Lift图

在这里插入图片描述
逻辑回归模型能够解决哪些商业问题
克隆模型
获客模型

逻辑回归模型案例

  1. 了解数据
    数据结构
    Y变量定义(查看Y变量的定义和历史数据中响应的情况,即Y=1的比例)
    X变量类型
    响应率情况
  2. 分数据
    INS:训练集
    OOS:验证集
    OOT(Out of Time):测试集——与训练样本相互独立

如果样本不均,怎么办?
随机抽取
如果有特定要求,可用分层抽样,或可放回抽样
三个数据集之间的关系?
训练集和验证集应该是相同的样本中随机抽取的
测试集则是与训练样本在不同时间窗口下的验证,比如说我们用过去一年的数据构建模型,在过去一年数据中随机划分为训练集和验证集;但是最后的测试集应该是从非过去一年的数据中进行验证模型的稳定性,比如从前年到去年的数据做测试集

如何随机分数据集?
随机抽样

  1. 探索数据
    分类型,数值型
    X内部表现
    X与Y关系
    缺失值

  2. 数据分布
    数值型
    数据分布特征
    极端值

在这里插入图片描述
Profile图(画像图)
Index=RR/Overall RR
Profile图作用:可以挑选变量(如果变量里不同区间差别很大,说明该变量对因变量影响将会很大)

Profile图核心思想是什么?(**重要)
按某些变量的特征分类,看每个类别分类和整体相比较是增加还是减少
分类型和连续型区别和联系是什么?
分类直接按类别划分,连续型需先按区间划分在进行分类

为什么要做Profile
挑选自变量除了从商业角度,还可以参考变量的profile,具体标准如下:
– 对于分类型变量,挑选各个分类里index相差较大的,说明各个类别中响应率有显著性差别
– 对于连续性变量,挑选那些随着变量值的改变,index变化有一定趋势的,比如index随着变量值的增大而增大,或者index随着变量值的增大而减小,并且变化显著

  1. 清洗数据
    缺失值处理
    极端值处理
    变量类型转化
    创建新变量(哑变量 0/1)

  2. 查相关性
    X与X之间关系
    X与Y 之间关系
    变量初步筛选

目的:缺失值及极值处理
数值型变量:
– 如果缺失:用Median(中位数)填充
– 如果<=P1分位点值:用P1分位点值填充
– 如果>=P99分位点值:用P99分位点填充
否则,用原始值,同时也可建立其对数,平方,开方形式
如果是分类型变量,可以用index来填充

  1. 创建模型
    初步筛选后的变量
    step-wise:逐步筛选
    P值、标准化误差
    X贡献率/VIF
    – X贡献率:根据自变量标准化后的系数,排除量纲的影响
    – VIF=1/(1-R^2)

  2. 模型评估
    X变量的商业意义
    X与Y之间的关系
    P值/T检验
    – P值即每个变量都显著才行
    X贡献率
    C值:反映了模型准确率预测的好坏
    ROC曲线
    Lift图

初步筛选变量的考虑因素?
变量的缺失有多少
变量的含义是否与Y变量沾边

模型调整的主要依据?
根据模型的稳定性和准确率

VIF应满足什么条件?
VIF考虑多重共线性;VIF通常小于2

C值与ROC曲线的关系?
C值是ROC曲线下方的面积

在这里插入图片描述
变量贡献率
contribution=standardized estimation/Overall abs(standardized estimation)
注意:截距不参与变量的贡献率

在这里插入图片描述
在这里插入图片描述
Lift图
Index=(RR/Overall RR)*100
探索结果——Lift计算
Decile:按照model score降序排序,十等分
RR:每个decile里的响应率
Overall RR:整体的响应率
Index=(RR/Overall RR)*100% #每个decile的响应率与整体响应率的比值

在这里插入图片描述
C值
含义:ROC曲线下方的面积,也成AUC值,是判断二分类预测模型优劣的标准,表示正例排在负例前面的概率

??ROC曲线如何画出

逻辑回归代码编写8步
#1. get familiar with your data
#2. split into three data
#3. profiling(see worksheet ‘profile’ in excel)
#4. means(see worksheet ‘means’ in excel)这一步可以得到均值,中位数,极大和极小值,通常用均值或者中位数来填充缺失值,对于极值的话,可以考虑使用1%或者99%的值来填充极小极大值
#5. recoding(see ‘recoding_logistic_model’ txt file)
#6. correlation(see worksheet ‘variable correlation’ in excel):看自变量间相关性和自变量与因变量之间相关性
#7. modeling(see worksheet ‘final model evaluation’ in excel)
#8. model evaluation(see worksheet ‘final model evaluation’ in excel) 预测的准确性看C值,稳定性是看在不同数据集上的准 确性

发布了69 篇原创文章 · 获赞 11 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_41636030/article/details/88977019