项目:淘宝用户数据分析

一、项目背景

1.项目描述:

本项目数据集包含了2017年11月25日至2017年12月3日之间,共1亿条用户数据记录,从中抽取前500w条数据进行分析,字段由ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。主要分析工具为python。

2.数据集来源及介绍:

来自阿里云天池官方数据集:User Behavior Data from Taobao for Recommendation

字段名描述:

列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
时间戳 行为发生的时间戳

行为类型描述:

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品

二、明确问题与分析目的、建立分析框架

1.分析框架如下:

在这里插入图片描述

2.问题与分析目的:

2.1 问题定义及目的:
① 计算各个环节的转化率,分析流失率对环节进行改进
② 分析商品销售情况,对用户偏好和时间维度找寻规律,在用户偏好的商品种类和时间上采取相应的策略,如活动促销、push等
③找到核心的用户群体(由于缺少销售金额字段,所以从销售频率和最近一次消费进行分析),针对核心用户采取差异化策略

2.2 问题分析流程:
① 按商品与用户行为进行拆解
② 查看基础指标数据,如pv,uv,跳出率(只浏览一次的用户),访客支付转化率(购买商品人数/uv)等
③按商品大类与商品小类拆解分析,主要分析销量与商品类别之间的关系
④对用户行为进行分析,基于时间维度和淘宝行为维度
⑤采用RFM模型与AARRR模型的简化版,对数据进行拆解打分

三、数据预处理

数据预览与处理

1.预览
在这里插入图片描述
在这里插入图片描述
2.缺失值、异常值、重复值查看及处理

  • 缺失值
    在这里插入图片描述
    数据比较完整,无缺失值

  • 异常值
    主要过滤掉时间维度在2017年11月25日至2017年12月3日之外的数据

  • 重复值
    在这里插入图片描述
    共5个重复值,进行去重处理

    时间戳转化,并将转化的列添加到原框架中

    在这里插入图片描述

    四、流量类指标数据分析

    1.绝对指标分析

    活跃用户定义:每日用户行为在3次或以上的用户
    支付用户、pv、uv如下:
    在这里插入图片描述

在这里插入图片描述
小结:4项指标(pv、uv、活跃用户、支付用户)在12月2日与12月3日均有较大幅度上升(对比11-25与11-26平均值,分别上升15万、1.3万、0.95万、0.42万),推测原因是由于双12活动即将开始前的预热活动所带来的各项流量增长

2.相对指标分析

日人均pv:即人均浏览量,每日pv/每日uv;
日活跃率(近似):每日活跃用户数量/总uv;
每日支付用户比例:每日支付用户数量/每日uv;
每日跳失率:每日只产生一次pv行为的用户/每日uv
指标如下图:
在这里插入图片描述
在这里插入图片描述

小结:
① 从图中可知,人均pv在这9天上下波动,范围在12-14次内,数据比较正常。日活跃率在12月2号与12月3号有较大比例上涨(平均上涨约17pp),推测是即将来临的双12大促活动的预热活动导致。但是支付用户比例却略有下降(对比前两日平均下降1.5pp),环比上周末下降约0.6pp(取这周末的平均值与上周末平均值的差值),推测是由于用户在预热活动进行商品选择(加购、收藏等行为),然后在双12当天享受较大优惠进行下单,这用户倾向于等待10天以享受更低折扣的心理。
②9天的日跳失率在10%-11%左右波动,整体比较稳定,且较低,证明平台用户粘性很高。

五、商品销售情况分析

1.对商品大类进行分析

下表是按商品大类进行分组的购买次数及总体占比:
在这里插入图片描述

小结:通过对前20%的商品大类共811项(总体大类4055项)进行占比加和,约占83.95%,符合二八定律,应将重心放在前20%的商品大类上,并在此基础上对小类进行细分,采取精细化运营策略。

2.对商品购买情况进行分析

①对商品的购买次数进行描述性统计如下:
在这里插入图片描述
②统计前20%商品相对于全部商品的购买次数占比:

  • 总体比率如下:

在这里插入图片描述

  • 由于数据集较大,对前20名畅销商品可视化如下:
    在这里插入图片描述
    小结:所有商品中销量top1的商品为71次,相比总销量70881次,占比约为1‰,是所有商品里的爆款商品,可以制定差异化策略(如给予更多曝光量,排行靠前等)进一步提升其销量。

六、用户行为分析

1.按不同时间进行分组分析:

① 不同日期:
在这里插入图片描述
在这里插入图片描述
小结:由图中趋势可以看到,4类用户行为在12月2号和12月3号均有明显上涨,尤其pv与加购两种行为涨幅很大,但支付行为涨幅相对较小,这与第四部分支付用户比例略有下降的原因猜测相符。

② 不同时间段(小时维度):
在这里插入图片描述

在这里插入图片描述
小结:由分时段的用户行为可以看出,用户主要活跃时间段19点-23点的时间段,符合16-40岁用户群体的作息规律,可以针对该用户群体分析用户画像特征,也可以在用户活跃时段进行消息推送、促销活动等。

2.按行为方式进行分析:

① 9天总体的数据与漏斗图如下(将加购和收藏看做同一个中间行为):
在这里插入图片描述
在这里插入图片描述

小结:由漏斗图可知,整体转化率处于一个比较优秀的水平,且由(cart+pv)至(buy)的转化率高达23.58%,所以可以采取提醒用户加购或收藏、加购领优惠券等策略,促进用户将自己喜爱的商品加购或收藏,提高购买的总体转化率。
② 按日期对不同层的转化率进行统计如下图:
在这里插入图片描述
小结:由上一部分可知,各项指标(pv,fav,cart,buy)均在12月2号、12月3号有明显上涨,但从每日转化率统计图可知,加购和收藏到产生购买行为的转化率有所下降,对比上周末(11月25日、11月26日)也有所下降,推测可能是双12预热活动吸引用户浏览、加购与收藏,但购买行为可能会在双12当天有较大折扣优惠时发生。

七、RFM模型分析用户重要性

注:由于缺少M(金额)列,仅通过R(最近一次购买时间)与F(购买频率)
	对用户进行价值分析

在这里插入图片描述
小结:重要价值用户占比最多,但一般发展客户占比排名第二,应注意保持重要价值用户占比,减少一般发展客户的占比。
对不同价值用户,应采取不同的运营策略:

  • 对于重要价值客户来说,要提高该部分用户的满意度,需要采取差异化服务,将这部分用户的体验放在最高优先级,提升其留存率,给予促销等福利发放,活动推广push时要注意避免降低用户体验。
  • 对于重要保持客户,他们购物频次较高,但最近一段时间没有消费,可以根据推荐算法推送相关感兴趣商品,推送优惠券push、好友唤回等活动进行用户召回。
  • 对于重要挽留客户,他们最近有产生消费,但购物频次较低,可以通过问卷、商品评论、反馈意见去获取信息,分析用户不满的地方进行改进,提升其体验,促进其多次消费
  • 对于一般发展客户,定期发送push通知或短信唤回,努力将其转化为重要保持客户或重要挽留客户。

八、总结

1. 加购和收藏的用户有20%转化为购买商品,转化率较高,所以应当采取相应措施(如提高商品详情页吸引力、加购或收藏领券、达到一定浏览时长加购提醒等方法),提升用户的加购率与收藏率,进而提高用户的购买率
2. 可以根据用户活跃的日期和时段(周一到周五,19点到23点)进行活动营销,在此期间推送用户感兴趣的商品。
3. 根据占比80%的20%商品类目数据,应当将主要流量与资源在这些商品上进行倾斜,进一步提升爆款商品的诞生率,但同时也要注意剩余80%商品类目中的潜力商品,进行适当的流量支持,进而保持平台综合的健康度。
4. 通过RFM模型对用户进行分层,应当有针对性的采取不同的营销方法进行精准化营销,用有限的公司资源优先服务于公司最重要的客户,获取最大化收益

猜你喜欢

转载自blog.csdn.net/weixin_43195011/article/details/109110831