电商交易数据分析

1.分析目的:根据过往电商成交数据进行数据分析发现规律和问题从而指导业务

2.数据

导入库

 导入数据

 加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布

 加载device_type

3.数据清洗

orderId

orderId在一个系统里是唯一值

先看下有没有重复值

如果有重复值一般最后处理,因为其他的列可能会影响到删除哪一条重复的记录

先处理其他的列

userId

userId只要从上面的describe和info看下值是不是在正常范围就行

对于订单数据,一个用户有可能有多个订单,重复值是合理的

productId

productId最小值是0,先来看下值为0的记录数量

177条记录,数量不多,可能是因为商品的上架下架引起的,处理完其他值的时候把这些记录删掉

cityId

cityId类似于userId,值都在正常范围,不需要处理

price没有空值,且都大于0,注意单位是分,把它变成元

payMoney

payMoney有负值,下单不可能是负值,所以这里对于负值的记录要删掉

删除负值的记录

 单位变成元

channelId

channelId根据info的结果,有些null 的数据,可能是短的bug等原因,在下单的时候没有传channelId字段

数据量大的时候,删掉少量的null记录不会影响统计结果,这里直接删除

deviceType的取值可以看device_type.txt文件,没有问题,不需要处理

createTime和payTime都没有null,不过要统计2016年的数据,所以要把非2016年的删掉

回过头来把orderId重复的记录删掉

把productId为0的也删除掉

数据清洗完毕,开始分析

4.数据处理和分析

先看下数据的总体情况

总订单数,总下单用户,总销售额,有流水的商品数

分析数据可以从两方面开始考虑,一个是维度,一个是指标,维度可以看做x轴,指标可以看做y轴,用一个维度可以分析多个指标,同一个维度也可以

做降维升维

按照商品的productId

先看下商品销量的前十和后十个

销售额

看下销量和销售额最后100个的交集,如果销量和销售额都不行,这些商品需要看看是不是要优化或者下架

price

对于价格,可以看下所有商品价格的分布,这样可以知道什么价格的商品卖的最好

 

很多价格区间没有商品,如果有竞争对手的数据,可以看看是否需要补商品填充

对应的价格

下单时间分析

按小时的下单量分布,可以按时间做推广

中午12,13,14点的下单比较多,应该是午休的时候,然后是晚上20点左右

按照星期来看,周六下单最多,其次是周五周日

下单后多久支付

绝大部分都在十几分钟之内支付完成,说明用户基本很少犹豫,购买的目的性很强

月成交额

猜你喜欢

转载自www.cnblogs.com/daisyxxx/p/12683760.html