数据分析之Part1:商业数据分析入门

商业数据分析入门

1.1 什么是数据分析

数据分析:根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅助决策制定。

这个定义是从两个层面来解释数据分析:

  • 它具体是在做什么?
  • 它能产生什么样的价值?

“全流程”的数据项目流程:业务问题的界定 → 数据收集与清晰 → 分析与模型

数据分析的价值最终体现在业务

数据分析工作的作用:为企业盈利,为企业的生存与发展建立基础。

数据分析是怎么提高企业盈利的?

传统的零售企业中,

盈利 = 销售所产生的收入 - 外部市场和内部经营所产生的成本和损失

销售所产生的收入(提高收入):

  1. 更低成本获取顾客
  2. 提高现有顾客购买金额
  3. 让购买中低端产品的顾客购买更高价、利润更高的产品

外部市场和内部经营所产生的成本和损失(成本和风险控制):

  1. 帮助企业预测市场走向
  2. 减少产品滞销和畅销产品断货的几率
  3. 优化内部经营的效率
案例:互联网企业 ——领英

他们的商业模式意味着用户的数量和活跃度是获取融资直到实现盈利前的生存基础

**关注的数据:**注册数量、每日活跃用户数、客户留存比率

数据分析:

  • 帮助企业提升用户从注册到活跃的比例
  • 辅助降低用户流失的数量,保证客户的数量和粘度

领英对用户数据深度挖掘,推出了“你也可能认识的人”的功能,强化了用户的关系粘度,实现了用户网络的爆炸式增长。

数据分析的重要性

数据增长,用户创造了大量的数据。

在许多新兴技术支持上,上网浏览的许多细节都会被记录下来。比如点击、滚动、悬浮、视频播放的暂停、快进等。

信息本身可能占用的空间不大,但由于用户基数众多,也形成了巨大的数据量

市场环境,数据的存储与计算能力不断提升,使我们可以服务千万个用户

硬件软件各方面成本的下降 → 企业可以存储更大更丰富的数据

持续迭代优化的算法模型 → 计算能力可以逐渐满足实时的计算需求

在大数据环境下,基于分析所进行的各种场景优化,都可以进行数据采纳和验证,使数据分析的价值可以量化

以前在营销领域有句名言:“我知道自己50%的广告费是浪费了,但是我不知道是哪个50%”,而在如今丰富的数据源和强大的计算能力下,我们可以明确的知道那浪费50%的广告费的是哪些媒介与渠道。

数据分析的人才需求

数据分析人员的两个重要能力要求:

  • 与人沟通协作的能力:与非技术人员明确业务问题,将数据分析结果沟通给其他成员
  • 与机器工作的能力:向机器提供数据,模型与算法,并分析机器所给出的结论

覆盖以下几个领域:

  • 从关系型数据库中查询,收集和整理数据的能力 ---- SQL语言
  • 对数据进行清洗,整理,分析和模型的能力 ---- Python
  • 对数据探索和分析结果进行可视化展示的能力 ---- Tableau和Excel

1.2 数据分析工作流程

1. 定义问题:
  • 定义所需分析的业务问题,确定相对应的数据分析计划和交付物
  • 三个常见的业务问题类型:what、why和how
  • 和业务方一起用数据驱动问题,将原本简单是what需求背后的why和how问题挖出来,是界定问题工作的重点
2. 数据收集与评估
  • 根据问题确定所需的内部和外部数据源,汇总成分析数据集,并进行初步数据质量的评估
3. 数据整理与清洗
  • 检查数据中可能存在的问题,对有错误或有问题的数据进行清洗,并将数据整理成命名规范,取值格式统一的形式
4. 数据探索与可视化
  • 进行初步的数据探索分析,在可视化工具的帮助下,找到数据的底层结构和规律以及能帮助解决问题的关键因素
5. 数据分析模型
  • 将变量信息输入到分析模型中,经过模型的选择和调整,最终给出能部署到业务中的数据分析结果

当然,并非所有工作都是严格按顺序进行的。

  • 在定义业务问题时,大部分情况下已经对企业所拥有的数据有所了解,而不是在确定问题之后再去了解数据

  • 数据整理与清晰和探索与可视化之间,没有绝对划清的界限,数据探索可能会发现在清洗过程中没有注意到的数据问题

  • 不一定需要更复杂的模型工作才能算是数据分析项目的完结

案例:宜家

宜家是依靠会员体系进行客户运营的商业模式,可以说是数据分析能发挥最大价值的场景之一

宜家的挑战:

  • 行业角度:
    • 宜家是开创以平实价格销售,自行组装家具的领导品牌
    • 但是国内市场良莠不齐,宜家品牌优势受到冲击
  • 消费者角度:
    • 不同顾客群体的购买习惯和关注产品差异很大了
    • 价格敏感度决定了他们是否认可宜家的品牌定位

能够用数据深度理解客户的态度和行为成了重要的竞争优势

以宜家为代表的实体零售是最早累积数据的领域,如POS机、早期IT系统,累积了每个交易的细节,如购买时间、购买产品、相关折扣和最终销售金额等。

宜家从创立之初就建立了会员体系,已经拥有了1800万的注册会员,顾客在商店和微信端都可以免费注册,享受相关的会员购买和餐饮方面的优惠,这些注册时的手机号和姓名等,都可以和公司内部以及第三方数据进行打通。

线下门店和线上会员运营的O2O结合

为宜家这样的企业转型为新零售模式提供了坚实的数据基础

1.3 界定分析问题

提出了一个好的问题可以说把问题解决了一半

像宜家这样规模庞大的企业,拥有丰富的用户,交易,门店和产品数据,如何更好的定义问题,以提升数据分析工作的落地价值?

分析问题大体可以分为下面三类问题:

  • what 什么发生了?
    • what类问题通常围绕企业所关注的重点指标。如“我们这个月的收入和利润如何”、“每个顾客在我店里大概会花多少钱”、“家具类产品里面是沙发卖的好还是桌子好”
    • 不仅要观测这些指标的当前值,还要监控他们本周、本月、本年的表现,也要比较这类数据与上个月或者上个季度或者去年同期的数据
    • 对于总体业务稳定的企业,要将重要指标汇总到报表中,让系统可以自动化的定期更新,帮助业务方和决策者可以随时了解企业的经营状况
  • why 为什么会发生?
    • why类问题关注的是业务现状背后的原因,如“为什么顾客购买的平均单价在下降”,这里可能涉及的原因有:经济、市场和其他因素,对宜家来说,直接原因就是顾客没有花钱在价格高的商品上
  • how 我们能做什么?
    • 在很多带给数据分析人员的why类问题,都有着来自于业务方面关于how的需求,比如刚刚的“顾客花钱少的问题”,业务方和企业管理层想要知道的是“我们怎么能让他们在宜家店里多花钱”
    • 这时候对于传统零售企业可能会采用“全场打折”这种老套路,但是对于宜家这种数据驱动的企业,会采用“精准营销”,这时候,业务问题就是“识别高价值顾客,实施针对性的营销方案,发放专属优惠券促进顾客购买
    • 我们可以将这句话拆分成两个部分:
      • 定义高价值顾客,并从数据中识别高价值顾客的具体特征。(将客户分成若干个群组,并从中找到可以定义为高价值的人群,再根据这个群组对应特征描述,为下一步的营销方案制定策略)
      • 选择那些在收到优惠券之后使用的顾客,并跟踪分析后续的使用和购买情况

业务人员往往带着what问题而来,我们需要用数据引导他们走向why/how的问题层

这里采用逐步分拆的方法,从宜家整体收入的变化,分拆到各个价位的产品和销售情况,找到what原因,针对性的提出why/how

高价值用户的识别问题,可以依靠用户分群类的统计分析、回归模型的方法。

最后,明确衡量分析项目成功的标准。

在实际选择发放优惠券的客群中,通常会在模型所选客群之外,随机选择一部分顾客作为对比测试,这部分顾客也会收到优惠券,在活动之后,会对比两组人使用优惠券的情况。

解决方法
what 以在数据库中抽取,拼接,聚合为主 Excel或者Tableau可视化报表
how 从数据中找出洞见,在what呈现的报表基础上做简单的数据探索和分析 以PPT或者文档方式攥写结论报告
why 提出对应的分析模型解决 模型结论和实施方案

1.4 数据收集与评估

基于前面所设定的数据分析问题和计划,在此步骤中,将收集后续分析所需的原始数据,并进行基本的数据质量评估

  • 在收集过程中,注意各数据源的格式以及相关关系
  • 在评估过程中,注意数据的完整性,准确性和及时性
分析数据的收集
广义的数据收集

企业将有关自身利益的各类内部和外部数据纳入到数据库的系统流程,在法律允许的范围之内,充分的收集用户社会,行为,消费信息,对于扩展分析维度会有很好的帮助

侠义的数据收集

从数据库的多个数据表中进行抽取、拼接、聚合的工作,以形成解决问题所需的数据集的过程。

这个情况下面对的大多是关系型数据库,这里的关系是指由行和列组成的二维表格。

1. 数据收取

从工作的效率考虑:

  • 对数据进行随机抽样以节省数据探索和分析时间
  • 在分析结论和模型验证通过后,再部署到全量数据
2.数据拼接

这里要注意表和表之间的关联关系,关联关系大体分为三种:一对一,一对多,多对多。

拼接过程中一般避免多对多的关联关系

3.数据聚合

用户每次在网站或者APP上所停留的时间可以聚合为用户最近一个月平均访问时长。这是因为单次访问时间可长可短,但是选取最近一个月的时间,并进行平均处理,就是比较稳定的反应用户的粘度信息。

固化在SQL代码中,形成强有力的标签化工具。

如”用户最近一个月平均访问时长“,按照该指标的大小,将用户区贴上”高粘度“、”中粘度“、”低粘度“的标签,这些标签容易被业务人员理解,安排营销活动就可以有的放矢。

从原始访问时间数据,到生成用户粘度标签,也被称为”衍生变量

在做数据探索时,发现的新的有价值的衍生变量,也应该反馈到这一步中。

在数据收集过程前,要评估各个数据源的完整性和及时性

  • 完整性检查:原始数据不存在和已知业务常识之间的明显差距

  • 及时性检查:确保各数据源都反应的是相同时间窗口数据,这对依靠第三方公司来管理营销活动的企业来说尤其重要

**在分析数据集后,**需要评估汇总数据的准确性和一致性,经过SQL语言的抽样和聚合处理,注意分析数据和原始数据的差异。

对于关键的数据可以进行简单的统计查询,如用户年龄的最大最小值,订单金额的最大值最小值和分布,此类方式可以快速排除在收集数据中因为SQL语句所产生的问题。

总结:根据所需解决的数据分析问题 → 完成从多个数据表中拼接聚合数据的过程 → 确认数据在收集前后完整而且准确后 → 对数据质量进行变量级别的清洗与整理

1.5 数据清洗与整理

  • 清洗:将有问题的数据排除出去
    • 涉及对数据缺失、异常和其他问题的处理
    • 清洗环节被认为最需要时间和精力的环节,通常会占据到整个数据分析项目中60%-80%的时间
  • 整理:将数据转化成更有助于后续分析的样式,如将实际年龄转换成80后、90后、00后这样有业务意义的分组

一定程度是数据确实,在现实项目中可以说是司空见惯

数据缺失问题:
  • 缺失的信息来自于哪个数据表?在原表中它们也是缺失的吗?

    • 这两个问题可以排除在数据抽取和拼接过程中所产生的错误
  • 如果在原表也缺失,那么是否有收集信息的疏漏?

    • 从业务角度上,性别或者收入这类较为敏感的信息,很有可能是因为在注册时就拒绝填写而产生。可以考虑在注册时,提供一定的激励手段,鼓励用户提供此类信息。
    • 如果业务团队反馈数据当时的收集过的,那么说明底层数据的录入有问题
  • 缺失信息的比例是多少?

    • 在排除了系统和流程问题之后,才会考虑技术处理的方法
    • 当缺失比例超过90%的时候,我们认为改变量无法提供有用的信息,可以进行删除
    • 当缺失比例较低时,可以采用均值、中位数或者回归方式填充
数据异常问题(三种主要的类型)
  • 数据有明显违背常识的错误

为什么这个问题没有在数据质量评估的时候被发现呢?

在数据收集时,更多的看的是汇总层面的数据,几百万用户产生几千万的销售额,我们要看的是收集处理前后还是几千万

  • 数据的离群值 —— outlier

    • 离群值是指与其他数据差异较大,会对数据分析结果产生影响的观测值
    • 先检查同一客户原表是否是同样的数值 → 再检查此数据是如何收集而来 → 从技术角度评估是否是离群以及如何对这个离群值进行处理
  • 特殊数字

    • 某些数据仓库系统的表格不允许出现留空,IT人员可能会以99999这样的特殊数字来标注”缺失值“
    • 在理想情况下,我们会有完善的数据字典可以查询。如果没有,也可以和相关团队沟通证实此类问题。

早期在美国的数据分析行业,流传过一个段子。

在斯克内克塔迪这样一个不为人知的小镇,贡献了美国很多企业30%以上的用户,而这个镇的人口也不过7万人。这是为什么呢?

原来这个小镇的邮政编码是12345,很多用户在注册信息时,为了不泄露自己个人信息,都随手填了这个邮政编码。

这个真实存在,却又很可能错误的邮政编码,就有待我们数据分析人员来解决了。

数据的整理

清洗掉数据中的缺失和错误,对离群值等进行核实和调整

主要有两个任务:

  • 对数据进行统一的格式化和命名规则处理
    • 数据命名或者取值的不规范会影响数据探索以及后续分析
    • 比如在城市字段里,会有:北京市 上海 内蒙 上海市。这里不规范的地方有:全名和简称的差异如上海和上海市其实是一个地方。内蒙作为省却被放入了城市这一栏里。
    • 由于不影响数据整体行数、列数,也不属于明显的数据异常,在数据质量检查和数据异常中都很难被发现
    • 一旦对用户进行区域画像,找出高价值用户的热门城市,就一定要对城市这以数据进行规范化标注。
  • 对某些信息进行重新编码以满足后续分析需求
    • 对数据重新编码,可以帮助挖掘新的信息
    • 比如交易时间 2019/02/20 15:26 ,我们可以重新编码为工作日 下午 2-4点时间段
    • 业务假设:工作日下午到宜家购物和在周末进店的客户是有一定区别的。
    • 我们可以将这两组用户的购买产品、金额等从数据库中拼接出来进行对比来验证假设,如果被验证了,那么这个重新编码是非常有意义的信息,应该反馈到最开始的数据收集过程中,直接固化为可以调取的标签

对数据进行编码的需求来自数据的认识,而对数据的认识来自数据探索的阶段。

1.6 数据探索与可视化

主要目标:寻找数据现象的规律,提出初步的业务洞见,为解决问题提供关键变量。

在这个阶段中,数据可视化将发挥巨大的作用。

如何找到“高价值顾客”

价值无法直接衡量和观测,因此需要先从现有信息中找到一个变量来间接反映价值,首先可以从“累计购买总额”这个变量来做分析

如果6个月以内没有在宜家购买任何产品,则有可能流失到竞争对手,短期内不应该被视为高价值用户,曾经的高消费可能是一次性装修等产生的需求

哪些用户更容易被优惠券打动而进店购买

宜家的邮寄广告是重要的营销媒介,每年发行的居家指南号称是除了《圣经》之外最被广为散布的书籍。

在收集数据过程中,提供了“优惠券兑换记录”这个标签,这个标签的创建规则是:

  • 收到邮寄广告后14天内进入店并且兑换优惠券的顾客,标签取值为1
  • 收到优惠券后并没有兑换使用的顾客,标签取值为0

计算相关系数来研究是否兑换优惠券和其他变量之间的相关关系

通过分析,与兑换优惠券关系最强的三个变量分别是:顾客注册时长、会员是否关注微信公众号、最近一次购买金额

这些变量都不在原始表中,创建这些变量的过程常称为衍生变量,在机器学习领域也被称为特征工程

多维度的衍生变量使得后续的分析模型更加准确,如何找到这些变量也依赖于对业务的理解。

好的探索分析依赖于统计经验、可视化工具和业务知识。

1.7 数据分析模型

数据分析模型是将数据中的洞见转变成商业决策的关键步骤,也是所有数据分析工作中最终产生价值的环节,所谓数据分析模型,就是对数据分析中各种规律的抽象总结。

本环节中要解决的问题:客户分群 & 预测分类

客户分群

在刚才的例子中,我们定义高价值顾客,并从数据中识别高价值顾客的具体特征。我们从销售贡献和最近购买时间入手,其实已经找到了两个X,这个切分不具有完全的科学,且仅仅使用两个变量也损失了其他很多有价值的信息。

我们能否将所有的变量都纳入到分析中,让机器计算出最佳的分组呢?

在找到高价值用户的特征时,我们用了聚类分析来进行客群的设定。如果“累积销售金额”就是顾客价值的体现,那我们可以直接使用回归模型建立Y=AX+B的模型。

回归模型和分类模型不同的就是,回归预测的是诸如销售额、股票价格、GDP这样的数字型变量。当我们把模型建立出来的时候,其实就是达到了和聚类分析类似的目的。

宜家高价值客户的三类人群:顾客平均的5倍以上花费

  • 城市新居住者:购买店面发生改变,送货地址发生改变,购买产品为生活日用类为主,注册手机号与所购买城市不同
  • 新婚家庭:顾客为男性为主,购买产品为家具类为主,双人床和衣柜等高价格家具关注度高于其他人群
  • 初为父母:顾客为女性为主,初次购买儿童/婴幼儿产品类型

要获得好的分群效果,最重要的一点便是用于聚类的变量可以被认为不同的维度。

RFM分析:

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过用户近期购买日期,购买频率和购买金额3项指标来描述该客户的价值状况。

  • 维度1:个人信息数据(年龄,性别)
  • 维度2:购买记录数据(频率、间隔周期、价值、产品偏好)
  • 维度3:需求和兴趣(网络浏览偏好、居住区域特征、生活习惯)

缺陷:三个要素(近期购买日期,购买频率,购买金额)都是围绕用户的购买行为而来,非金钱类的行为特征

预测分类

在上面预测哪些用户会在收到优惠券后使用与购买中,这里的优惠券兑换是Y,在这种情况下,我们告诉计算机哪个变量是预测目标,这也被称为是“监督式学习”。这和前面讲到的以分群为代表的“非监督式学习”不同。

发布了18 篇原创文章 · 获赞 29 · 访问量 954

猜你喜欢

转载自blog.csdn.net/weixin_43509127/article/details/104199306
今日推荐