电商用户行为分析大数据系统

一、包含的模块

1、对用户访问session进行分析

2、按时间比例随机抽取session

3、获取点击、下单和支付次数排名前10的品类

4、获取top10品类的点击次数最多的10个session

页面单跳转化率

各区域热门商品统计

5、复杂性能调优全套解决方案

6、十亿级数据troubleshooting经验总结

7、数据倾斜全套完美解决方案

8、模块功能演示

二、在实际企业项目中的使用架构:

1、J2EE的平台(美观的前端页面),通过这个J2EE平台可以让使用者,提交各种各样的分析任务,其中就包括一个模块,就是用户访问session分析模块;可以指定各种各样的筛选条件,比如年龄范围、职业、城市等等。。
2、J2EE平台接收到了执行统计分析任务的请求之后,会调用底层的封装了spark-submit的shell脚本(Runtime、Process),shell脚本进而提交我们编写的Spark作业。
3、Spark作业获取使用者指定的筛选参数,然后运行复杂的作业逻辑,进行该模块的统计和分析。
4、Spark作业统计和分析的结果,会写入MySQL中,指定的表
5、最后,J2EE平台,使用者可以通过前端页面(美观),以表格、图表的形式展示和查看MySQL中存储的该统计分析任务的结果数据。

但是在本套课程中,我们只做第三和第四点,不会做所有的部分,因为时间有限,我们只关注最重要的Spark,就是开发Spark程序。实际上,能够将Spark程序开发的很好,已经非常不错了。

四、业务流程

这里写图片描述

猜你喜欢

转载自blog.csdn.net/wuxintdrh/article/details/80903231