大数据架构师+精英必备技能

（一）架构师技能树

大数据基础巩固（录播）

HDFS分布式文件系统
1.HDFS架构设计
2.HDFS设计思想
3.数据块
4.机架感知
5.容错策略
6.数据本地性策略
7.读写流程分析
8.HDFS高可用原理

MapReduce分布式计算模型
1.基本原理
2.作业执行流程
3.深入理解shuffle流程
4.MapReduce执行流程
5.Partition分区
6.Join算法
7.MapReduce调优

YARN 资源调度系统
1.YARN基本架构
2.YARN核心设计原理
3.YARN核心运行机制
4.容量和公平调度器
5.MapReduce ON YARN执行流程
6.YARN 高可用原理
7.YARN 容错

Zookeeper分布式锁服务
1.基本架构
2.工作原理
3.读写流程分析
4.数据结构-znode
5.znode基本操作
6.watcher监听机制
7.持久节点与临时节点
8.Zookeeper客户端操作
9.集群监控
10.Leader选举
11.CAP理论
12.高可用HA应用案例
13.同步队列与FIFO队列
14.分布式集群配置分发

大数据架构（直播）

大数据正确认知
1.学习大数据认知陷阱
2.大数据生态到底是什么样的
3.大数据按照技术场景如何细分
4.真实企业大数据部门编制
5.大数据岗位设置与职业发展路线
6.转型大数据的必备技能
7.典型大数据平台架构
8.教学思路解析

大数据平台构建与运维
1.集群部署前准备
2.基于Ambari+HDP大数据平台构建
3.Hadoop集群性能调优
4.Kerberos权限控制
5.Hadoop集群高级运维
6.Zabbix监控
7.Hadoop2.x特性
8.Hadoop3.x新特性

数据获取层

Python爬虫
1.Python基础
2.Numpy
3.Pandas
4.多数据源接口
5.数据可视化
6.Python爬虫
7.Scrapy爬虫
8.数据探索及预处理

Flume 架构
1.Flume Agent架构
2.Flume 组件
3.Flume 不同架构介绍
4.Flume单节点安装及配置详解
5.Flume高可用及负载均衡
6.Flume分布式集群安装
7.Flume监控

Flume典型Source
1.Spooling directory source
2.Taildir source
3.Kafka source
4.自定义source

Flume典型Sink
1.HDFS sink
2.HBase sink
3.Kafka sink
4.自定义sink

Flume典型Interceptor
1.Timestamp Interceptor
2.Host Interceptor
3.Static Interceptor
4.Search and Replace Interceptor
5.Regex Extractor Interceptor
6.自定义 Interceptor

Kafka数据交换中心
1.消息队列内部实现原理
2.Kafka架构
3.Kafka分布式集群构建
4.Kafka常用命令使用
5.Kafka Topic更改与删除
6.深入理解Kafka生产消息原理
7.深入理解Kafka消费消息原理
8.深入理解Kafka存储消息原理
9.Kafka生产者开发
10.Kafka消费者开发
11.Kafka Producer拦截器（含案例）
12.Kafka Streams（含案例）
13.Kafka监控
14.Kafka高级调优

DBus数据采集平台
1.传统数据采集遇到的难题
2.DBus特性与应用场景
3.总体架构
4.贴源数据采集
5.多租户数据分发
6.核心功能概览
7.DBus一键部署和快速使用
8.DBus生成环境部署
9.DBus 数据采集实战

数据存储层

HBase数据库建模
1.HBase体系架构
2.物理存储与逻辑存储
3.核心功能模块
4.HFile与HLog File
5.Region定位流程分析
6.HBase读写流程分析
7.Shell管理员常用操作
8.Java API操作

HBase进阶
1.预建分区
2.Rowkey设计
3.HBase表结构设计
4.数据迁移
5.数据批量导入与导出
6.数据备份与恢复
7.性能调优
8.企业应用场景
9.Hive+HBase实现大数据分析
10.Phoenix+HBase搞定随机读写

Kudu随机读写+分析
1.应用场景
2.与HBase对比
3.架构解析
4.分布式集群构建
5.kudu常用API
6.kudu与Impala整合
7.kudu与Spark整合
8.schema与分区设计
9.运维与监控
10.性能优化

数据计算层

深入讲解Spark架构
1.Spark-Application
2.Spark-Driver
3.Spark-ClusterManager
4.Spark-Master
5.Spark-Worker
6.Spark-Executor及线程池

Spark核心RDD
1.RDD弹性分布式数据集
2.RDD的五大特征
3.RDD宽依赖与窄依赖

Spark RDD转换算子
1.RDD Map
2.RDD FlatMap
3.RDD Filter
4.RDD MapPartition
5.RDD Distinct
6.RDD union
7.RDD groupby

Spark RDD行动算子
1.RDD collect
2.RDD take
3.RDD first
4.RDD reduce
5.RDD saveAsTextFile
6.RDD count

Spark 持久化算子
1.RDD persist
2.RDD cache
3.RDD checkpoint

Spark作业提交及参数调优
1.Spark-submit作业提交命令
2.executor-core设置
3.executor-memory设置
4.Spark-submit--jars
5.Spark-submit deploy-mode
6.Spark-submit--conf
7.Spark-submit--driver-memory

Spark运行模式
1.Local模式
2.Standalone模式
3.Spark ON YARN模式

Spark任务调度详解
1.Spark Context初始化
2.DAG有向无环图构建
3.Job 的Stage划分
4.Stage的Task划分
5.DAGScheduler
6.TaskScheduler
7.Cluster Manager
8.Spark shuffle过程详解

Spark Streaming实时计算框架
1.SparkStreaming数据模型DStream
2.SparkStreaming Job执行流程
3.SparkStreaming Receiver接收器
4.SparkStreaming核心算子使用
5.SparkStreaming窗口操作
6.Checkpoint检查点机制
7.SparkStreaming容错
8.SparkStreaming高级调优

Spark Streaming与Kafka整合
1.读取Kafka数据进度设置
2.消费Kafka相关参数设置
3.Direct模式整合与使用
4.Kafka高并发能力设置
5.Direct模式offset管理
6.代码升级checkpoint无法恢复问题解决
7.消费Kafka的数据丢失和重复问题解决
8.Spark Streaming配置参数详解
9.实操：Spark Streaming实时计算案例

Flink新一代计算引擎
1.Flink架构
2.Flink应用场景
3.Job提交作业
4.Local模式
5.Standalone 模式
6.Flink ON YARN 模式
7.转换操作
8.广播变量
9.分布式缓存
10.Flink容错
11.Flink与HBase整合

Flink DataStream实时计算
1.编程模型
2.DataStreamContext
3.常用转换操作
4.延时调度
5.DataStream支持的三种time
6.Watermarks水位线机制
7.固定延时
8.延时数据处理
9.窗口分配器
10.窗口函数
11.触发器
12.驱逐器
13.Broadcast State的妙用
14.Checkpointing使用
15.Barrier
16.Savepoint
17.性能调优
实操：Flink DataStream实时计算案例

作业调度层

Azkaban
1.Azkaban架构原理
2.Azkaban快速部署
3.Dependency作业的使用
4.HDFS作业在Azkaban中的使用
5.MapReduce作业的使用
6.Hive作业的使用
7.定时作业
8.SLA与邮件设置
9.two server模式部署
10.短信告警改造
11.AJAX API的使用
12.Plugin与Jobtype的使用
13.生产环境下的使用和改造思路

Easy Scheduler
1.Easy Scheduler介绍
2.Easy Scheduler部署
3.Easy Scheduler快速入门
4.Easy Scheduler架构设计
5.扩展Easy Scheduler
6.实操：Easy Scheduler实践

OLAP/Sql On Hadoop

Hive大数据分析
1.Hive体系架构
2.元数据库MySQL搭建
3.Hive安装部署
4.Metastore存储
5.表与视图
6.Hive高级函数
7.数据批量导入与导出
8.Hive Server2
9.beeline的使用
10.数据管理
11.实操：Hive案例分析

Spark SQL大数据分析
1.Spark SQL运行架构
2.Spark session详解
3.DataFrame用法
4.DataSet用法
5.Spark SQL与MySQL整合
6.Spark SQL与Hive整合
7.Spark SQL与HBase整合
8.实操：SparkSQL案例分析

Presto大数据分析
1.Presto架构和原理
2.集群构建与管理
3.Presto安全
4.常规连接器的使用
5.自定义连接器/UDF
6.性能调优
7.集群管理工具
8.Presto 第三方库
9.实操：Presto案例分析

Kylin大数据分析
1.多维立方体理论
2.kylin技术架构
3.kylin工作原理
4.部署kylin集群环境
5.Cuboid剪枝
6.Rowkey优化
7.增量构建
8.流式构建
9.Kylin扩展
10.Kylin安全
11.监控诊断
12.Kylin日常运维
13.实操：Kylin+Superset实现用户行为分析

大数据治理

Atlas元数据管理框架
1.Atlas原理与架构
2.Atlas基础环境
3.Atlas源码编译
4.Atlas部署
5.元数据查询
6.实操：Atlas与Hive整合

Ranger大数据安全
1.大数据安全现状与背景
2.Kerberos、Sentry、Ranger
3.Ranger架构
4.Ranger核心组件
5.权限模型
6.HDFS权限实现
7.HBase权限实现
8.Yarn权限实现
9.Hive权限实现
10.实操：Ranger组权限实现

机器学习/数据挖掘

机器学习理论基础
1.机器学习人工智能数据挖掘的区别
2.机器学习的分类
3.常见模型和算法梳理
4.主流机器学习库介绍

Spark ML基础入门
1.Spark基础简单回顾
2.Spark ML介绍
3.机器学习平台构建

Spark ML Pipelines（ML管道）
1.Pipelines的主要概念
2.Pipelines实例讲解
3.ML操作的代码实操
4.实操：案例实现

Spark ML数学基础
1.ML矩阵向量计算
2.分类效果评估指标及ML实现详解
3.交叉-验证方法及ML实现详解
4.实操：案例实现

Spark ML特征的提取、转换和选择
1.特征的提取及ML实现详解
2.特征的转换及ML实现详解
3.特征的选择及ML实现详解
4.实操：案例实现

Spark ML线性回归/逻辑回归算法
1.线性回归算法
2.逻辑回归算法
3.ML回归算法参数详解
4.ML实例
5.实操：案例实现

Spark ML决策树/随机森林/GBDT算法
1.决策树算法
2.随机森林算法
3.GDBT算法
4.ML树模型参数详解
5.ML实例
6.实操：案例实现

Spark ML KMeans聚类算法
1.KMeans聚类算法
2.ML KMeans模型参数详解
3.ML实例
4.实操：案例实现

Spark ML LDA主题聚类算法
1.LDA主题聚类算法
2.ML LDA主题聚类模型参数详解
3.ML实例
4.实操：案例实现

Spark ML协同过滤推荐算法
1.协同过滤推荐算法
2.ML协同过滤分布式实现逻辑
3.ML协同过滤源码开发
4.ML实例
5.实操：案例实现

大数据分析挖掘项目实战

《税票实时数仓系统》实战项目

项目目的：
打造企业级数据仓库平台，提供税票数据全方位分析

课程思路：
1、课程从数据仓库基本理论入手，先从一个高度认识数据仓库；
2、然后带着大家了解主流数仓基础平台的架构，并从零搭建一个数仓基础平台，同时完成数仓的规划；
3、紧接着按照数仓开发的真实流程，以税务发票数据分析为背景，带着学员完成一个数据主题从需求调研、指标设计、模型设计、数据采集、ETL、数据二次加工、可视化全链路的开发流程；
4、最后帮大家梳理离线数仓改造为实时数仓的思路，并完成主线的改造工作。

数据规模：
全量数据百万企业用户级别，数十亿财税数据

核心技术栈：
HBase+Hive+Dbus+Kafka+Flink/Spark SQL/Spark Streaming+Kylin+Easy Scheduler+Davinci+Wormhole

预期目标：
1、理解数据仓库的基本理论；
2、掌握数仓基础平台及数仓规划与构建；
3、掌握一个数据主题从需求调研（指标设计、模型设计）、数据采集、数据开发(ETL、数据加工、指标计算)、可视化全链路的开发流程；
4、学会在实际数仓项目中如何思考并解决疑难问题，体会数据的价值。

授课内容一：数仓整体介绍
1.数据库与数仓
2.数仓基础知识
3.传统数据与大数据数仓
4.数仓应用场景
5.数仓建设流程

授课内容二：数仓规划和构建
1.主流数仓基础平台架构
2.数仓基础平台规划
3.数仓基础平台构建
4.分层设计/主题域划分/其他设计

授课内容三：税票数仓系统开发
1.需求调研
1)背景
2)需求分析
2.模型设计
1)需求细化
2)模型设计
3)指标设计
3.数据源
1)MySQL税票数据源
2)税票数据基本格式
3)税票数据核心字段介绍
4.增量实时数据采集
1)不同数据源采集难点
2)Dbus贴源数据采集
3)消息顺序性保证
4)Flink实时增量模块开发
5.数据交换与数据存储
1)Kafka顺序性问题解决
2)数据落地存储幂等性问题解决
3)数据增量采集顺序不一致性问题解决
6.数据仓库开发
1)数据接入ODS
2)星型模型、雪花模型、DataValue模型
3)数据模型设计
4)维度设计/指标设计
5)维度剪枝优化
6)数据立方体构建
7.Davinci大数据可视化
1)税后总金额
2)总税费
3)总利润
4)订单总金额
5)城市销售额排名
6)品类销售排名
8.作业调度
1)Easy Scheduler实现相关作业调度

授课内容四：实时数仓改造
1.实时数仓的必要性
2.主流实时数仓架构
1)Lambda架构
2)Kappa架构
3.实时数仓改造思路
4.基于Kylin3.0打造实时数仓

《个性化新闻推荐系统》实战项目
项目目的：
打造类今日头条的个性化新闻推荐系统

课程思路：
1、课程打破一般推荐系统课程的常规，首先从推荐系统概述入手，阐述推荐系统价值，与广告、搜索系统的区别，并介绍推荐系统的常见业务场景；
2、然后介绍一个推荐系统整体的架构(而不仅仅是一段协同过滤的代码)；
3、在对推荐系统常见召回和排序算法进行深入讲解；
4、最后带着大家动手打造一个类今日头条的新闻推荐系统。

核心技术栈：
Java Web+Hadoop+Hive+HBase+Spark+Spark ML+Mahout+Easy Scheduler+基于协同过滤的推荐算法（Collaborative Filtering）+基于内容相似度的推荐算法（Content-based Recommendation)

数据规模：
全量数据用户上亿级别

预期目标：
1、理解推荐系统理论
2、掌握主流召回算法
3、掌握主流排序算法
4、掌握推荐系统架构
5、学会从零打造一个个性化新闻推荐系统

授课内容一：认识推荐系统
1.啥是推荐与推荐系统
2.推荐系统的价值
3.常见业务场景
4.推荐系统、广告系统、搜索系统的不同
5.企业推荐系统实践与思考

授课内容二：推荐系统构建流程
1.数据获取阶段
2.推荐系统构建阶段
1)数据分析挖掘
2)召回算法设计
3)排序算法设计
3.推荐评价与反馈阶段

授课内容三：数据获取阶段
1.借助已有数据仓库
2.用户行为数据
3.爬虫数据
4.公开数据集

授课内容四：推荐系统构建阶段
1.数据挖掘工具
2.协同过滤/基于内容推荐/频繁模式推荐
3.GBDT-LR排序模型/Wide & Deep排序模型/DeepFM排序模型

授课内容五：推荐评价与反馈阶段
1.离线评估
2.在线评估
3.借助数据分析工具评估

授课内容六：典型推荐系统架构
1.数据集市/数据仓库
2.计算系统
3.在线服务
4.调度系统
5.监控系统
6.推荐干预

授课内容七：个性化新闻推荐系统实战
1.需求分析
2.详细设计
1)整体架构设计
2)模块划分
3)数据库设计
3.数据采集
爬虫采集模块开发
4.推荐模块设计与开发
1)推荐流程设计
2)多算法召回目标新闻(CF、Content-based、频繁模式、Hot News Recommendation)
3)GBDT-LR排序模型设计与编码
4)解决冷启动问题
5.推荐引擎周边模块开发
6.推荐系统优化

源码分析
1.Hadoop HA实现源码分析
2.Spark 任务调度流程源码分析
3.Flink Checkpoint 机制源码分析

面试宝典
1.选公司
2.项目经验怎么写
3.面试技巧
4.面试陷阱
1)生小孩没
2)结婚没
3)买房没
4)住的近不近
5)怎么看待我们公司
6)你的未来规划是什么
7)你还有什么问题问我吗
5.面试五大忌
6.BAT面试真题讲解

（二）项目部分大屏展示

（三）部分资料图

大数据研习社

发布了79 篇原创文章 · 获赞 211 · 访问量 29万+

私信关注

大数据架构师+精英必备技能

（一）架构师技能树

猜你喜欢