BigData大数据开发路线详细完整结构知识体系学习大全(2022)

一、基础知识

海量、多样、高增速、高速

(一)采集:

Flume/Kafka/Sqoop

(二)存储:

Mysql/Hasoop/Hbase/HDFS/mongoBD/Kafka

(三)计算:

Hive/Tez/Spark/Flink/Storm/MapReduce/Presto

(四)查询:

Presto/Druid/Kylin/Impala

(五)可视化:

Superset/Echarts/QuickBI/DataV

(六)任务调度:

Azkaban

(七)集群监控:

Zabbix

(八)元数据管理:

Atlas

(九)数据质量监控:

Shell/Griffin/python

二、开发平台

(一)Hadoop大数据处理框架

特性:处理、存储、分析、分布式、非结构化数据、开源框架
	 低成本、高可靠、高扩展、高有效、高容错
语言:Java
意义:大数据分布式系统基础架构、数据管理系统、数据分析
	 大规模并行处理框架、生态圈

1、MapReduce 磁盘离线分布式计算框架

磁盘离线批处理
计算分析

2、HDFS分布式文件系统

3、HBase 实时数据存储管理系统

列族数据库、非关系型数据库

4、Zookeeper集群分布式协调系统

集群管理、分布式锁

5、Hive离线数据仓库

6、Yarn运行调度资源管理平台

7、TeZ(DAG计算)

计算分析

8、Spark(内存计算)

计算分析

9、Pig:流数据处理

提供类似sql语句查询
轻量级编程语言

10、Oozie:作业流调度系统

11、Flume:日志相关收集

美团

12、Sqoop:完成数据导入导出

数据库ELT工具
关系型数据库到HDFS、HBase、Hive互导

13、Ambari(最上层):部署工具

Hadoop快速部署工具

(二)Spark通用内存并行计算框架

特性:快速、易用、通用、随处
语言:Scala、函数式、面向对象
意义:大数据计算分析引擎
内存、可落地到磁盘

1、Spark core

2、Spark SQL

3、Spark Streaming:流处理库

4、graph-parallel(GraphX):图并行处理库

5、ML(MLlib):机器学习库

6、Shark SQL:并行式SQL查询库

7、HDFS、Tachyon:分布式文件存储系统(大量数据的存储)

8、Mesos,YARN:资源管理框架(调度计算任务)

三、数据仓库

四、数据分析

五、机器学习

猜你喜欢

转载自blog.csdn.net/qq_25482375/article/details/124353432