第 1 步:理解业务和数据
关键决策:
1. 需要作出什么样的决策?
需要作出的决策:是否需要向这 250 个新客户寄送产品宣传册
2. 作出这些决策需要获取哪些数据?
需要获取的数据如下:
需要建模的历史客户数据(p1-customers):
数据项 | 数据来源表格 | 数据名称 | 数据用途 |
1 | p1-customers | Customer Segment | 建模中的虚拟变量 |
2 | p1-customers | Avg Num Products Purchased | 建模中的预测变量 |
3 | p1-customers | Avg Sale Amount | 建模中的目标变量 |
进行预测计算的新客户数据(p1-mailinglist):
数据项 | 数据来源表格 | 数据名称 | 数据用途 |
1 | p1-mailinglis | Customer Segment | 带入模型计算预测销售额 |
2 | p1-mailinglis | Avg Num Products Purchased | 带入模型计算预测销售额 |
3 | p1-mailinglis | Score_Yes | 计算预测销售额 |
当然我们计算得是利润,那么还需要以下两个数据:
数据项 | 数据名称 | 数据用途 |
1 | 所有产品的平均毛利率(价格减去成本)是 50% | 计算毛利润 |
2 | 印刷和寄送每本产品目录册的成本是 6.5 美元 | 计算纯利润 |
第 2 步:分析、建模和验证
分析:
因为我们预测的是总销售额是否能达到预期要求,那么需要计算我们如果寄送之后
的收入是多少;如果需要计算收入,那么需要我们根据历史客户的销售数据情况来
建立预测模型。
建模:
模型中预测变量的选择:
1)姓名数据不可作为预测变量
2)Customer Segment 为分类变量,可将其作为预测器变量。我们设置 Credit Card
Only 为基础条件,其他:Loyalty Club and Credit Card,Loyalty Club Only,
Store Mailing List 变量为预测变量;
3)Customer ID、Address、City 、State、ZIP 均无法作为预测变量。
4)Avg Sale Amount 与 Avg Num Products Purchased 间的关系:
从以上散点图可以看出 Avg Sale Amount 与 Avg Num Products Purchased 间
具有线性关系。Avg Num Products Purchased 可以作为预测变量。
5)Responded to Last Catalog 由于新客户数据表中没有此数据信息,所以在预测
模型中该数据无法作为预测变量。
6)Avg Sale Amount 与# Years as Customer 间的关系:
从以上散点图可以看出 Avg Sale Amount 与# Years as Customer 间没有线性关
系,所以# Years as Customer 无法作为预测变量。
所以我们目前已选择的变量为:
预测变量:(Loyalty Club and Credit Card、Loyalty Club Only、Store Mailing
List )、Avg Num Products Purchased
目标变量:Avg Sale Amount
所以,我们可以建立销售金额预测模型如下:
Y(Avg Sale Amount)=β0 + β1·X1(Avg Num Products Purchased) +
β2·X2(Store Mailing List)+β3·X3(Loyalty Club and Credit Card)+
β4·X4(Loyalty Club Only)
验证:
1. 根据统计学验证线性模型的拟合度:
1)Avg Num Products Purchased 的拟合度验证:
通过对 Avg Num Products Purchased 进行回归数据分析
得出:R 的平方为 0.732315,对应的 P 值为 0。
结论:Avg Num Products Purchased 数据具有显著统计意义。
2)Customer Segment 的模型拟合度验证:
通过对 Customer Segment 进行回归数据分析
得出:R 的平方为 0.702367,对应变量系数的 P 值小于 0.05。
结论:Customer SegmentS 数据具有显著统计意义。
3)预测模型方程的拟合度验证:
通过对预测模型方程进行回归数据分析
得出:R 的平方为 0.836878,对应变量系数的 P 值均小于 0.05。
结论:建立的销售预测模型数据具有显著统计意义。
2. 根据以上数据推理,可以得出该销售预测模型的最佳线性回归方程:
Y(Avg Sale Amount)=303.46 + 66.97·X1(Avg Num Products Purchased)
-245.41(if type:Store Mailing List)+ 281.83(if type:Loyalty Club and
Credit Card)-149.35(if type:Loyalty Club Only)
第 3 步:演示/可视化:
1. 你的建议是什么?公司应该向这 250 个客户发送宣传册吗?
建议:公司应该向这 250 名新客户发送宣传册
2. 你是如何得出你的建议的?(请解释你的推理流程,以便审核人员能够根据你
的流程向你提供反馈)
根据我们建立的预测模型计算:
1)假设每个客户都会购买时,根据模型计算得出总的销售额为$138284.64
2)因为每个客户都有概率进行购买,那么销售额乘以购买概率后,得出预计的购
买销售额为$47222.3
3)因为通过产品目录册出售的所有产品的平均毛利率是 50%,并且印刷和寄送每
本产品目录册的成本是 6.5 美元。那么可以计算得出最终的预计销售利润为
$21986.15。
4)最终销售额大于 1 万美元,所以最终的决策应该是向这 250 名客户发送宣传册。
3. 新的宣传册带来的利润预计是多少?(假设向这 250 个客户发送了宣传册)
新的宣传册带来的利润预计是 21986.15 美元