88(1).Spark大型电商项目-用户访问session分析-模块总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/someby/article/details/88904231

目录

总结


本篇文章记录用户访问session分析-模块总结。

总结

 1、完整的大数据项目开发流程:数据分析、需求分析、技术方案设计、数据表设计、代码编写、功能测试、性能调优、(上线)troubleshooting、(上线)解决数据倾斜问题。

2、交互式大数据分析系统的架构:J2EE+Spark;

3、基础组件:企业级大数据项目,spark工程,架构

4、复杂的用户分析的业务:聚合统计、按时间比例随机抽取、复杂排序、取topn、用户行为分析

5、spark的各种算子:map、reduce、join、group

6、spark的高级技术点:自定义Accumulator、随机抽取算法、二次排序、分组取TopN

7、性能调优:普通调优、jvm调优、shuffle调优、算子调优

8、troubleshooting:多个实际生产环境中的,线上复杂报错问题的,剖析和解决方案

9、(高端)全套的数据倾斜解决方案:原理+现象+定位、7种解决方案

猜你喜欢

转载自blog.csdn.net/someby/article/details/88904231