python大数据开发学习路线

5个月,精通大数据的必备干货【技术点标记重点】,下方含全套自学 视频+源码资料,如果零基础入门数据开发行业的小伙伴从Python语言入手。Python语言简单易懂,适合零基础入门,在编程语言排名上升最快,能完成数据挖掘。

大数据开发入门 01

  • Linux

基本命令

用户管理

权限管理

网络管理

SSH

VI

  • MySQL

DDL

DML

DQL

多表查询

分组查询

约束

  • Kettle

数据转换

脚本组件

Job开发

  • BI工具

基本操作

常用图表

仪表板

大数据核心基础02

  • Zookeeper

架构原理

存储模型

ZK集群搭建

选举机制

  • Hadoop HDF S

HDFS架构

Block块存储

读写流程

NameNode

DataNode

高可用集群

  • Hadoop MapReduce

核心原理

执行流程

Shuffle机制

  • Hadoop YARN

YARN组件

架构原理

执行流程

调度器

  • Hive

HQL

数据类型

分区分桶

拉链表

元数据

数据压缩

存储格式

原理架构

性能优化

千亿级数仓技术03

  • CDH

CM架构

组件构建

CM实操

  • 基于阿里数仓分层架构

ODS

DIM

DWS

DWD

DM

ADS

  • Hive + Presto

架构原理

SQL调优

集群构建

  • Hive 性能调优

数据倾斜

JOIN调优

HIVE索引

  • 调度

DS

Azkaban

Oozie

阶段项目实战 在线教育大数据数仓 视频 1、在线教育数仓实战

PB级内存计算04

  • Python编程

基本语法

数据结构

函数

面向对象

异常处理

模块与包

网络编程

多进程

多线程

闭包

装饰器

迭代器

  • Spark

架构原理

Spark RDD

Spark DF

Spark DAG

Spark SQL

内存迭代

性能调优

任务调度

Pandas on Spark

Spark on Hive

Spark Shuffle

Spark 3.x 新特性

阶段项目实战 工业项目实战、保险大数据实战
视频 1、零基础快速入门Python编程 2、Python编程进阶 3、全网首套PySpark 4、工业项目实战

亚秒级实时计算05

  • Flink Core

架构原理

批流一体

Window操作

State操作

DataStream

Checkpoint

Flink SQL

任务调度

负载均衡

状态管理

Runtime

执行计划

Flink性能监控与调优

Flink性能监控与调优

Flink + Elasticsearch

Flink + Kafka

Flink + Pulsar

Flink + ClickHouse

Flink + Doris

  • 阶段项目实战 车联网项目实战 金融证券项目实战 视频 1、中间件&存储框架(敬请期待) 2、Flink开发课程(敬请期待) 3、车联网实时计算项目(敬请期待) 4、金融证券项目实战(敬请期待)

  • 大厂面试06

  • 数据结构

数组

链表

哈希表

高频算法

排序

查找

数组

字符串

链表

队列

二叉树

回溯

动态规划

贪心

复杂度

面试真题

编程语言

SQL

Hadoop生态

Hive

Spark

Flink

大厂架构

美团点评数仓架构

小米大数据架构

平安大数据架构

视频 1、北大硕士算法专题课

链接:https://pan.baidu.com/s/19zFkO4JBUAqTt9o2msu9gA?pwd=1234   提取码:1234  
 

有帮助可以收藏哦,小扎持续输出高质量干货

猜你喜欢

转载自blog.csdn.net/m0_57290404/article/details/125442615