大数据零基础就业班学习路线

通过真实企业项目,JAVA高并发、Hadoop、Hive、Scala、Spark、Python、机器学习等大数据技能,实现年薪翻番。

课题 内容 知识重点 备注
Linux理论(4晚) Linux基础 操作系统安装 自学视频
基础命令使用
软件安装
Linux-shell编程 shell:bash基础
脚本实战
高并发:lvs负载均衡 网络理论
四层LVS模型理论
LVS实验
高可用&反向代理 keepalived
nginx
Hadoop理论(5晚) hadoop-hdfs理论 hadoop介绍 直播讲座
hdfs存储模型
hdfs架构模型
hdfs角色
hdfs持久化
hadoop-hdfs集群搭建 hdfs读写流程
集群搭建配置解析
完全分布式&CLI命令实操
hadoop-hdfs 2.x & api hdfs:ha介绍
hdfs:ha集群搭建
hdfs-api开发
hadoop-MR理论 MR架构理论
YARN理论
搭建YARN集群
WordCount运行
hadoop-MR开发&源码分析 手写wordcount
MR源码分析:客户端
hadoop-MR源码分析 MapTask输入分析
MapTask输出分析
ReduceTask输入分析
hadoop-MR开发案例 MR:天气案例
MR:好友推荐案例
hadoop-MR开发案例 pagerank案例
tfidf案例
itemcf案例
Hive理论(2晚) Hive介绍以及安装 Hive的产生背景 直播讲座
Hive架构
Hive 安装
内部表/外部表/分区表
Hive实战 案例
Hive参数配置
动态分区/分桶
运行方式/调优
HBase理论(2晚) HBase介绍以及安装 Hbase数据模型 直播讲座
Hbase架构
Hbase搭建:伪分布式/全分布式
HBase调优 Hbase shell
Hbase API
Hbase 调优
Mapreduce hbase 整合
Hadoop项目(5晚) 项目需求分析 JS - SDK 设计 直播讲座
Java - sdk 设计
项目流程/架构
项目准备 JS - SDK 实现
Java - SDK 实现
Nginx 搭建
数据采集以及清洗 Flume的用法
日志收集的实现(业务系统日志数据实时写入HDFS)
ETL - 数据清洗
项目代码实现以及优化 新增用户指标 - mapreduce实现
Outputformat 类实现
活跃用户指标 - mapreduce实现
项目优化
项目架构扩展以及组件整合 Sqoop的用法
Hive和hbase 的整合
浏览深度指标的hive分析
项目架构扩展
redis理论(2晚) redis类型 安装redis 直播讲座
数据类型:String、list、hash、set、sortedset
redis高级 持久化
主从复制
哨兵
Zookeeper理论(2晚) Zookeeper介绍 架构模型 直播讲座
可用模式
选主模式
Zookeeper使用 api开发
使用场景介绍
zk案例:rmi多server的分布式协调
Scala语法(2晚) Scala语法介绍 scala语言特点 直播讲座
scala开发环境的安装
scala语法
scala语法实战 语法使用
Spark理论(10晚) Spark介绍 Spark与MR的对比 直播讲座
Spark运行模式以及区别
RDD的五大特性
Spark代码开发流程 transformation类算子
action类算子
统计每一个单词出现的次数 WordCount
持久化类算子的原理以及使用方式
Spark集群搭建 Spark集群的架构,Master Wokrer的作用 自学视频
集群搭建
client cluster两种提交任务的方式的区别以及应用场景
提交命令 各个选项的作用
Spark资源调度原理 什么是资源调度 直播讲座
资源调度的流程
资源调度的源码分析
Spark任务调度 RDD的宽窄依赖
DAGScheduler切割job的原理
TaskScheduler的调度以及重试原理
什么是推测执行,推测执行的必要条件
Spark案例 计算topN
分组取TopN
统计页面的PV UV 最热门的板块,以及最热门的板块下最活跃的top10用户...
Spark中两种最重要shuffle 什么shuffle
shuffle的原理
sortShuffle hashShuffle的执行原理以及区别
shuffle调优
Spark高可用集群的搭建 高可用集群的原理
搭建步骤
Spark WEBUI详解
SparkSQL介绍 什么是SparkSQL SparkSQL的优势
SparkSQL中的DataFrame与RDD的区别
SparkSQL支持的数据源
SparkSQL实战 Spark读取parquet格式的文件
SQL语句处理RDD数据
数据保存的方式
自定义UDF UDAF函数  
开窗函数的使用
SparkStreaming介绍 SparkStreaming介绍
SparkStreaming的应用场景
SparkStreaming运行原理
SparkStreaming实战 算子讲解
有状态的算子(updateStateByKey reduceByKeyAndWindow)
SparkStreaming与kafka整合步骤
Spark车流量分析项目(5晚) 车流量项目的架构 lambda架构 直播讲座
模块介绍
技术方案选型
数据采集
车流量项目的需求分析以及代码实现 需求分析
代码实现
车流量项目的需求分析以及代码实现 需求分析
代码实现
车流量项目调优 代码调优
资源调优
数据本地化调优
6种数据倾斜解决方案
车流量项目总结 项目知识点总结
调优点总结
机器学习(6晚) 机器学习介绍 什么是机器学习 直播讲座
机器学习与人类思考的对比
简单的线性回归
线性回归详解 简单的线性回归  多元现行回归
什么梯度下降
保险保费预测案例
逻辑回归分类算法 什么是分类  分类与回归的区别
逻辑回归分类原理
音乐分类案例
Kmeans聚类算法 什么是聚类
Kmeans算法原理
微博营销案例
KNN分类算法 KNN原理
手写实现KNN算法
约会案例
决策树 随机森林算法 算法原理
手写实现算法 
机器学习项目(3晚) 推荐系统介绍以及架构分析 什么是推荐系统,以及推荐系统的前景 直播讲座
什么是lambda架构
本项目架构详解
推荐系统的特征工程 数据清洗
特征工程  关联特征与基本特征的构建
推荐系统代码实现以及部署 什么是dubbo为服务
代码实现
项目部署
Elasticsearch理论(2晚) Elasticsearch搜索原理 倒排索引与lucene框架原理 直播讲座
单lucene搜索引擎的原理
Elasticsearch集群分布式搜索原理
Elasticsearch实战 Elasticsearch集群搭建
可视化UI 服务讲解 与任务布置
CURL 命令创建es数据
Storm理论(3晚) Storm介绍以及代码实战 Storm实时分析框架原理与比较 直播讲座
本地集群运行Storm框架
IDE环境应用Storm及功能案例1
Storm伪分布式搭建以及任务部署 IDE 本地集群运行与案例2
Storm 伪分布式集群搭建
Storm 任务部署
Storm架构详解以及DRCP原理 Storm 架构解释
Storm 全分布式集群搭建及任务部署
drpc 同步实施分析与异步分析的异同及部署
虚拟化理论 kvm虚拟化 虚拟化原理 自学视频
kvm虚拟化命令行操作
docker docker理论
docker实操

中石化大数据顾高级技术问张洋老师专场大数据、架构、区块链公开课

十年经验的老司机带你飞【学习交流群:189555046】

点击这个链接报名哦!【免费的】架构大数据区块链公开课

https://ke.qq.com/course/215398?flowToken=1002412



猜你喜欢

转载自blog.csdn.net/qq_42248663/article/details/80874420