余老师带你学习大数据-Spark快速大数据处理第八章第一节案例数据源介绍

淘宝用户行为分析案例

在这里插入图片描述

通过用户的注册、登录、浏览、加车和购买这一系列的数据,去分析这个网站的PV、UV以及各种转化率,浏览之后是否产生购买行为和加购物车之后是否产生购买行为然后通过这种的行为分析,去发掘两个特点,第一个是向什么样的用户去推荐什么样的新的商品,什么样的商品会承载可能的问题,比如说这样的商品需要下架,转化率和复购率不好。

数据源

在这里插入图片描述

从淘宝的天池下载数据源,网址是:数据下载地址: https://tianchi.aliyun.com/dataset/dataDetail?dataId=46,需要自己的账号去下载。是淘宝内部的资源,有12256906条记录,这是淘宝初期发展的数据,当时的规模还是比较小的,这个数据集有30天的数据。此外,里面包括了淘宝当时双12的活动,通过双12和平时的对比,可以直观的看到活动对互联网平台产生的流量影响。
在这里插入图片描述

时间戳是到小时,在数据分析中需要加载数据分析逻辑,因为没有分和秒所以无法排序。一个小时之内用户可能做很多动作,很多动作无法在时间上进行排序。可以用行去排序,生成的行是谁先发生谁在前,但是我们不做这个假定。

详细学习内容可观看Spark快速大数据处理扫一扫~~~或者引擎搜索Spark余海峰
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_45810046/article/details/109802125