「大数据集群的搭建和使用」本期课程学习概览

课程名称:大数据集群的搭建和使用


学习目的:每年学一个小技术


学习目标:用所学知识分析电子烟行业热门品类Top10、各区域热门商品Top3、网站转化


学习内容:

第一部分:

大数据背景知识学习

大数据概述

Hadoop概述

第二部分:

搭建大数据集群环境

了解Linux操作系统

掌握虚拟机的创建与启动

熟悉Linux操作系统的安装

掌握虚拟机的克隆

熟悉Linux操作系统网络及主机名的配置

熟悉Linux操作系统SSH和时间同步的配置

掌握ZooKeeper集群部署

掌握Hadoop集群部署

掌握Spark集群部署

掌握HBase集群部署

掌握Kafka集群部署

第三部分:

热门品类Top10分析

掌握热门品类Top10分析实现思路

掌握如何创建Spark连接并读取数据集

掌握利用Spark获取业务数据

掌握利用Spark统计品类的行为类型

掌握利用Spark过滤品类的行为类型

掌握利用Spark合并相同品类的行为类型

掌握利用Spark根据品类的行为类型进行排序

掌握将数据持久化到HBase数据库

熟悉通过Spark on YARN运行程序

第四部分:

各区域热门商品Top3分析

掌握各区域热门商品Top3分析实现思路

掌握如何创建Spark连接并读取数据集

掌握利用Spark获取业务数据

掌握利用Spark过滤商品的行为类型

掌握利用Spark转换数据格式

掌握利用Spark统计每个区域中的不同商品

掌握利用Spark根据区域进行分组

掌握利用Spark根据区域内商品的查看次数进行排序

掌握将数据持久化到HBase数据库

掌握通过Spark On YARN运行程序

第五部分:

网站转化率统计

掌握网站转化率统计实现思路

了解如何生成用户浏览网页数据

掌握如何创建Spark连接并读取数据集

掌握利用Spark SQL统计每个页面访问次数

掌握利用Spark SQL获取每个用户浏览网页的顺序

掌握利用Spark SQL合并同一用户浏览的网页

掌握利用Spark SQL统计每个单跳的次数

掌握利用Spark SQL计算页面单跳转化率

掌握将数据持久化到HBase数据库

熟悉通过Spark On YARN运行程序

猜你喜欢

转载自blog.csdn.net/weixin_62909516/article/details/131627909
今日推荐