基于Mysql的淘宝用户分析

一、背景

数据来源于tianchi.aliyun.com/dataset/dat…,通过此项目学习电商数据分析的指标与数据分析的基本方法。

探索目标:每日不同时段流量走势,质量如何?用户行为转化情况怎样?如何提高留存、增加复购?如何判断高价值用户,针对不同用户如何进行个性化营销?

二、行业相关指标总结

2.1 运营检测指标

image.png

2.2 人/货/场维度

image.png

三、分析思路

3.1观察数据

表tianchi_mobile_recommend_train_user,有6个字段:用户ID、商品ID、商品类目ID、用户行为类型、用户所在地理位置、用户行为时间,一共有12256905条数据。数据导入Navicat时限于电脑性能,仅提取1200000条记录用作分析。

image.png

-- 用户行为类型又分为四种: type=1,点击商品详情页,等价于pv;type=2,收藏商品;type=3,商品加入购物车;type=4,商品购买;

3.2 分析维度

(1)从时间与流量来源维度:以PV、UV、人均浏览量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯;

image.png

(2)从货的思考维度:探索用户对商品的购买偏好,了解商品的销售规律;

(3)参考RFM的客户价值维度:通过分析用户的最近交易行为(Recency)、交易频率(Frequency)来描述该客户的价值状况。将这两项指标分成几个区间进行评分,通过计算评分找到有价值的用户,并对用户进行分类。

image.png (4)用户典型路径挖掘,一个购买过程中会产生多少次用户行为,以及购买路径的先后顺序;

(5)从用户的行为角度:利用漏斗模型,用户的行为转化路径有两种,a.点击—收藏—加购物车—购买,b. 点击—加购物车—购买;

(6)根据用户特征进行聚类,根据不同类型用户进行行为分析,有利于锁定目标用户。

3.3 数据准备

地理位置列缺失值太多,删除;添加日期、时间列;

create table sub_user_train as
select * from  user_train order by rabd() limit 1200000;
#处理数据--地理位置列缺失值太多,删除
alter table user_train drop sub_user_geohash;
#处理数据--添加日期、时间列
set sql_safe_updates=0;
alter table sub_user_train add date char(20);
alter table sub_user_train add ahour char(20);
update sub_user_train set ahour=hour(time);
update sub_user_train set ahour=date(time);
复制代码

四、数据分析

4.1 时间与流量维度分析

浏览量PV:页面浏览量或点击量Page View,用户每打开一个网页就记录1次PV,用户多次访问同一页面PV累计多次。

select ahour as 时段,
sum(behavior_type=1) as 点击量,
count(distinct user_id) as 访客量,
sum(behavior_type=4) as 成交量,
sum(behavior_type=1)/count(distinct user_id) as 人均浏览量
from sub_user_train
group by 时段;
复制代码

访客数UV:访问页面的独立访客Unique Visitor,用户访问该页面的一台电脑客户端为一个访客,以浏览器的cookie为依据,同一个用户多次访问只计算一个UV。

人均浏览量PV/UV:平均每个独立访客的浏览次数,体现网站对用户的吸引程度。

image.png

image.png 从时间段来看,10点到15点用户逐渐活跃,用户活跃的高峰时间为22点左右,商家可以集中资源,在用户活跃度较高的时间段采取一些引流手段。可集中资源在该时间段进行引流与营销活动,如推送爆款及畅销商品,同时发送商家折扣优惠、直播带货及促销活动消息,提高商品购买率。

从日期来看,浏览量PV、访客量UV和人均浏览量的总体变化趋势是相同的。12月11日、12日因双12的缘故,PV分别达到了峰值,说明双12的营销活动对用户行为有显著影响。

4.2 对商品偏好维度

分析爆款、畅销商品,从而进一步调整产品结构和营销方案。

select item_id,sum(behavior_type=1) as 点击量
from sub_user_train
group by item_id
order by 点击量 desc
limit 10;
复制代码

image.png 为何点击量高的商品编号,成交量却那么低?是购买过程中哪个环节出了问题?可根据这些商品的各个购买环节寻找原因。

另外对于深受用户喜爱的商品,要通过各渠道增加畅销商品的曝光。根据用户消费偏好分析,尝试将购买量较低的商品和畅销商品捆绑销售,或者关联推荐,并优化商品的展示页面,将畅销商品和滞销商品放在一起展示,提高滞销商品的曝光率,利用爆款产品带动整体商品的销售。

4.3 用户行为漏斗转化

查询用户在购买流程中各环节的转化情况,目前用户的行为转化路径至少有两种,a.点击—收藏—加购物车—购买,b. 点击—加购物车—购买;

假设用户按照“a.点击—收藏—加购物车—购买”这个路径转化,那么从“收藏——加购”这一环节的转化率会异常。因此大概率考虑用户的转化路径为“b. 点击—加购物车—购买”;

image.png

查询相关指标,如下;

select 
date as 日期,
sum(if(behavior_type='1',user_num,0)) as 浏览人数,
sum(if(behavior_type='3',user_num,0)) as 加购人数,
sum(if(behavior_type='4',user_num,0)) as 购买人数,
sum(if(behavior_type='3',user_num,0))/sum(if(behavior_type='1',user_num,0)) as 浏览-加购转化率,
sum(if(behavior_type='4',user_num,0))/sum(if(behavior_type='3',user_num,0)) as 浏览-加购转化率
from (select date,behavior_type,count(distinct user_id) as user_num
			from sub_user_train where behavior_type in ('1','3','4') group by date,behavior_type
			) as t
group by date;
复制代码

将查询结果呈现出来;

image.png

image.png 从浏览到购买只有5.9%的转化率,总体转化率较低。浏览—加购转化率只有61%,加购—购买转化率81%,说明从浏览到加入购物车这个阶段是指标提升的重点环节。

从用户行为转化漏斗分析,交易流程越多,用户流失的可能性就越大,瞬间购买欲望的涌现,往往时效性较短,每多一步流程,就多一份流失率。例如收藏环节,收藏和购物车的功能有一定的同质性,关于这一点,淘宝没有做明显的区分,导致购物车只是简便版的收藏。反观同电商领域的拼多多,没有设置购物车功能,缩短了成交环节。

4.4 客户价值分析

原数据没有给出金额,因此通过参考R和F来对客户价值进行评分。

最近一次消费(Recency): 指最近一次消费距离上一次消费之间的时间长短。它反映了客户对产品的态度以及对品牌价值的信任度,它关乎消费者的存留状况。

消费频率(Frequency): 指某个特定时间内消费的次数。它直接反映了客户的忠诚度,消费频率越高,忠诚度就越高;忠诚度越高的客户数量越多,公司的竞争优势越强,市场份额越大。

消费金额(Monetary): 指一定时间内消费某产品金额。它反映的是客户的价值,价值越高,给公司创造的利益就更大。

首先观察下,最近一次消费间隔(按天数)分布,购买次数的人数分布:

image.png 分布结果如下图:

image.png

image.png 根据用户数量分布,制定以下评分标准,根据评分标准给对用户打分;

image.png

image.png

image.png 将以上查询结果保存为一张新表rfm_s;

完成打分后,一般根据行业经验来对用户的价值进行划分。本案例以均值为维度,计算R均值为3.58;F均值为3.87,分别对用户的R、F进行层次划分。R>3.58程度为高,否则为低;F>3.87程度为高,否则为低。划分依据如下:

image.png 对客户价值进行划分;

image.png

image.png 重要价值客户:交易时间间隔短,消费频率高,应加强交流与互动,深入了解用户需求,提供个性化服务,增加用户粘性。可以对该类用户提供VIP服务机制,提升用户体验与忠诚度。

重要发展客户:其交易时间间隔短,但消费频率低,可以利用推荐系统推荐其平时浏览的同类商品,或与此类客户有相同购买属性人群购买的商品,发送满减优惠券等,避免用户流失。

重要保持客户:其交易时间间隔长,消费频率高,该群体应该是店铺的粉丝客户,信赖商品品质,有需求时会频繁购买,这类客户需要保持。

一般挽留客户:其交易时间间隔长,交易频率低,消费金额低,存在流失风险,可以及时与用户取得联系,明确流失原因或了解用户需求,想办法挽回用户。

总体而言,对客户的维度划分有客观成分,依赖行业经验。上面的划分过于简单。 (写于2020.11.17)

Guess you like

Origin juejin.im/post/7050027672063180807