读书笔记 - 数据分析

卢辉 -《 数据挖掘与数据化运营实战 》第六章内容摘录

数据挖掘项目完整案例

1 项目背景和业务分析需求的提出

背景:某互联网公司“免费会员运营团队”的主要工作内容就是不断培养和提升免费会员的成熟度和电子商务专业度, 以便在条件具备的时候可以适时将部分优质的免费会员提升为付费会员,免费会员按照活跃度来划分可分为高活跃度、 中活跃度和低活跃度3类群体。

活跃度划分的指标主要是30天之内登录网站的次数, 以及某核心入口30天以来的PV量。

数据分析业务需求
高活跃度的免费用户一直是该运营团队的重点客户群体, 高活跃度群体的付费转化率也一直
是最高的, 且转化数量也是最多的。 但是, 困扰运营方的一个重要问题是, 高活跃度用户的流失率比较大, 有相当比例的高活跃度免费用户在短时间里会从高活跃度跌落到中、 低活跃度群体里。运用数据分析方法,提前锁定最可能流失的高活跃度用户

2 数据分析师参与需求讨论

讨论主要有:
1. 针对需求收集相关的背景数据和指标, 与业务方一起熟悉背景中的相关业务逻辑;
2. 从数据分析的专业角度评价初步的业务分析需求是否合理, 是否可行;

3 制定需求分析框架和分析计划

1.分析需求转化成数据分析项目中目标变量的定义。 高活跃度用户的流失定义
2. 分析思路的大致描述。 具体到本案例, 分析思路是通过搭建分类模型来比较准确且有效地
来提前锁定有可能流失的用户群体
3. 分析样本的数据抽取规则。
4. 潜在分析变量(模型输入变量) 的大致圈定和罗列。 (是从业务经验的角度大致罗列了这些似乎对目标变量的预测有意义的相关变量。)
5. 分析过程中的项目风险思考和主要的应对策略。
6. 项目的落地应用价值分析和展望。
主要集中在3个方面:
(1) 模型投入应用后提前锁定有高流失风险的高活跃度用户群体,从而可以使运营方有针对性地开展挽留、 服务等运营工作;
(2) 建模过程中发现的有价值的、最可能影响流失的重要字段和指标选择性地提供给运营方, 用于制定运营方案和策略的依据和参考;
(3) 针对影响流失的核心指标和字段, 可以提供给相关业务方, 以作为进行客户关系管理的依据
和参考线索

4 抽取样本数据、 熟悉数据、 数据清洗和摸底

扫描二维码关注公众号,回复: 166430 查看本文章

根据前期讨论的分析思路和建模思路, 以及初步圈定的分析字段(分析变量) 编写代码, 从数据仓库中提取分析、 建模所需的样本数据;
通过对样本数据的熟悉和摸底, 找到无效数据、 脏数据、 错误数据等, 并且对样本数据中存在的这些明显的数据质量问题进行清洗、 剔除、 转换, 同时视具体的业务场景和项目需求, 决定是否产生衍生变量, 以及怎样衍生等。
数据清洗:
(1)对缺失值的处理(丢弃,填充);
(2) 输入变量之间的相关性分析, 找出潜在共线性问题的相关输入变量, 对于高度线性相关的变量只保留一个;
(3) 数据仓库的数据回滚过程中造成了某些字段的严重不符合逻辑或明显自相矛盾。

5 按计划初步搭建挖掘模型

主要内容:
(1) 进一步筛选模型的输入变量。 最终进入模型的输入变量应遵循“少而精”的总原则;
(2) 尝试不同的挖掘算法和分析方法, 并比较不同方案的效果、 效率和稳定性;
(3) 整理经过模型挑选出来的与目标变量的预测最相关的一系列核心输入变量, 将其作为与业
务方讨论落地应用时的参考和建议。

6 与业务方讨论模型的初步结论, 提出新的思路和模型优化方案

在本阶段, 需要整理模型的初步报告、 结论, 以及对主要预测字段进行提炼,
对核心自变量进行了整理提炼, 并进行了权重排序
还要通过与业务方沟通和分享, 在此基础上讨论出模型的可能优化方向, 并对落地应用的方案进行讨论, 同时罗列出注意事项。

7 按优化方案重新抽取样本并建模, 提炼结论并验证模型

在上述优化方案和新增衍生变量的基础上,重新抽取样本, 一方面验证之前的重要猜想; 另一方面尝试搭建新的模型提升预测效果。
模型建好了, 还不能马上提交给业务方进行落地应用, 还必须用最新的实际数据来验证模型
的稳定性。

8 完成分析报告和落地应用建议

一份详细完整的项目结论和应用建议:
(1) 模型的预测效果和效率, 以及在最新的实际数据中验证模型的结果, 即模型的稳定性。
(2) 通过模型整理出来的可以作为运营参考的重要自变量及相应的特征、 规律。
(3) 数据分析师根据模型效果和效率数据提出的落地应用的分层建议, 以及相应的运营建议,
其包括: 预测模型打分应用基础上进一步的客户特征分层、 相应细分群体运营通道的选择、 运营文案的主题或噱头、 运营引导的方向和目的、 对照组与运营组的设置、 效果监控的方案等。

9 制定具体的落地应用方案和评估方案
10 业务方实施落地应用方案并跟踪、 评
估效果
11 落地应用方案在实际效果评估后, 不
断修正完善
12 不同运营方案的评估、 总结和反馈
13 项目应用后的总结和反思

猜你喜欢

转载自blog.csdn.net/xy9476/article/details/80226814