课程名称:大数据集群的搭建和使用
学习目的:每年学一个小技术
学习目标:用所学知识分析电子烟行业热门品类Top10、各区域热门商品Top3、网站转化
学习内容:
第一部分: 大数据背景知识学习 |
大数据概述 Hadoop概述 |
第二部分: 搭建大数据集群环境 |
了解Linux操作系统 掌握虚拟机的创建与启动 熟悉Linux操作系统的安装 掌握虚拟机的克隆 熟悉Linux操作系统网络及主机名的配置 熟悉Linux操作系统SSH和时间同步的配置 掌握ZooKeeper集群部署 掌握Hadoop集群部署 掌握Spark集群部署 掌握HBase集群部署 掌握Kafka集群部署 |
第三部分: 热门品类Top10分析 |
掌握热门品类Top10分析实现思路 掌握如何创建Spark连接并读取数据集 掌握利用Spark获取业务数据 掌握利用Spark统计品类的行为类型 掌握利用Spark过滤品类的行为类型 掌握利用Spark合并相同品类的行为类型 掌握利用Spark根据品类的行为类型进行排序 掌握将数据持久化到HBase数据库 熟悉通过Spark on YARN运行程序 |
第四部分: 各区域热门商品Top3分析 |
掌握各区域热门商品Top3分析实现思路 掌握如何创建Spark连接并读取数据集 掌握利用Spark获取业务数据 掌握利用Spark过滤商品的行为类型 掌握利用Spark转换数据格式 掌握利用Spark统计每个区域中的不同商品 掌握利用Spark根据区域进行分组 掌握利用Spark根据区域内商品的查看次数进行排序 掌握将数据持久化到HBase数据库 掌握通过Spark On YARN运行程序 |
第五部分: 网站转化率统计 |
掌握网站转化率统计实现思路 了解如何生成用户浏览网页数据 掌握如何创建Spark连接并读取数据集 掌握利用Spark SQL统计每个页面访问次数 掌握利用Spark SQL获取每个用户浏览网页的顺序 掌握利用Spark SQL合并同一用户浏览的网页 掌握利用Spark SQL统计每个单跳的次数 掌握利用Spark SQL计算页面单跳转化率 掌握将数据持久化到HBase数据库 熟悉通过Spark On YARN运行程序 |