UdacityP3:精准营销推荐

第 1 步:理解业务和数据
关键决策:

1. 需要作出什么样的决策?

需要作出的决策:是否需要向这 250 个新客户寄送产品宣传册

2. 作出这些决策需要获取哪些数据?

需要获取的数据如下:

需要建模的历史客户数据(p1-customers):

数据项 数据来源表格 数据名称 数据用途
1 p1-customers Customer Segment 建模中的虚拟变量
2 p1-customers Avg Num Products Purchased 建模中的预测变量
3 p1-customers Avg Sale Amount 建模中的目标变量

进行预测计算的新客户数据(p1-mailinglist):

数据项 数据来源表格 数据名称 数据用途
1 p1-mailinglis Customer Segment 带入模型计算预测销售额
2 p1-mailinglis Avg Num Products Purchased 带入模型计算预测销售额
3 p1-mailinglis Score_Yes 计算预测销售额

当然我们计算得是利润,那么还需要以下两个数据:

数据项 数据名称 数据用途
1 所有产品的平均毛利率(价格减去成本)是 50% 计算毛利润
2 印刷和寄送每本产品目录册的成本是 6.5 美元 计算纯利润

第 2 步:分析、建模和验证

分析:
因为我们预测的是总销售额是否能达到预期要求,那么需要计算我们如果寄送之后
的收入是多少;如果需要计算收入,那么需要我们根据历史客户的销售数据情况来
建立预测模型。

建模:

模型中预测变量的选择:

1)姓名数据不可作为预测变量

2)Customer Segment 为分类变量,可将其作为预测器变量。我们设置 Credit Card
Only 为基础条件,其他:Loyalty Club and Credit Card,Loyalty Club Only,
Store Mailing List 变量为预测变量;

3)Customer ID、Address、City 、State、ZIP 均无法作为预测变量。

4)Avg Sale Amount 与 Avg Num Products Purchased 间的关系:

从以上散点图可以看出 Avg Sale Amount 与 Avg Num Products Purchased 间
具有线性关系。Avg Num Products Purchased 可以作为预测变量。

5)Responded to Last Catalog 由于新客户数据表中没有此数据信息,所以在预测
模型中该数据无法作为预测变量。

6)Avg Sale Amount 与# Years as Customer 间的关系:

从以上散点图可以看出 Avg Sale Amount 与# Years as Customer 间没有线性关
系,所以# Years as Customer 无法作为预测变量。

所以我们目前已选择的变量为:

预测变量:(Loyalty Club and Credit Card、Loyalty Club Only、Store Mailing
List )、Avg Num Products Purchased

目标变量:Avg Sale Amount

所以,我们可以建立销售金额预测模型如下:
Y(Avg Sale Amount)=β0 + β1·X1(Avg Num Products Purchased) +
β2·X2(Store Mailing List)+β3·X3(Loyalty Club and Credit Card)+
β4·X4(Loyalty Club Only)

验证:
1. 根据统计学验证线性模型的拟合度:

1)Avg Num Products Purchased 的拟合度验证:

通过对 Avg Num Products Purchased 进行回归数据分析
得出:R 的平方为 0.732315,对应的 P 值为 0。
结论:Avg Num Products Purchased 数据具有显著统计意义。

2)Customer Segment 的模型拟合度验证:

通过对 Customer Segment 进行回归数据分析
得出:R 的平方为 0.702367,对应变量系数的 P 值小于 0.05。
结论:Customer SegmentS 数据具有显著统计意义。

3)预测模型方程的拟合度验证:

通过对预测模型方程进行回归数据分析
得出:R 的平方为 0.836878,对应变量系数的 P 值均小于 0.05。
结论:建立的销售预测模型数据具有显著统计意义。

2. 根据以上数据推理,可以得出该销售预测模型的最佳线性回归方程:
Y(Avg Sale Amount)=303.46 + 66.97·X1(Avg Num Products Purchased)
-245.41(if type:Store Mailing List)+ 281.83(if type:Loyalty Club and
Credit Card)-149.35(if type:Loyalty Club Only)

第 3 步:演示/可视化:

1. 你的建议是什么?公司应该向这 250 个客户发送宣传册吗?

建议:公司应该向这 250 名新客户发送宣传册

2. 你是如何得出你的建议的?(请解释你的推理流程,以便审核人员能够根据你
的流程向你提供反馈)

根据我们建立的预测模型计算:

1)假设每个客户都会购买时,根据模型计算得出总的销售额为$138284.64

2)因为每个客户都有概率进行购买,那么销售额乘以购买概率后,得出预计的购
买销售额为$47222.3

3)因为通过产品目录册出售的所有产品的平均毛利率是 50%,并且印刷和寄送每
本产品目录册的成本是 6.5 美元。那么可以计算得出最终的预计销售利润为
$21986.15。

4)最终销售额大于 1 万美元,所以最终的决策应该是向这 250 名客户发送宣传册。

3. 新的宣传册带来的利润预计是多少?(假设向这 250 个客户发送了宣传册)

新的宣传册带来的利润预计是 21986.15 美元

猜你喜欢

转载自www.cnblogs.com/li24998/p/11720531.html