BigData big data développement route détaillée et complète structure connaissance système apprentissage Daquan (2022)

Big Data

1. Connaissances de base

海量、多样、高增速、高速

(1) Collecte :

Flume/Kafka/Sqoop

(2) Stockage :

Mysql/Hasoop/Hbase/HDFS/mongoBD/Kafka

(3) Calcul :

Hive/Tez/Spark/Flink/Storm/MapReduce/Presto

(4) Enquête :

Presto/Druid/Kylin/Impala

(5) Visualisation :

Superset/Echarts/QuickBI/DataV

(6) Planification des tâches :

Azkaban

(7) Suivi des clusters :

Zabbix

(8) Gestion des métadonnées :

Atlas

(9) Surveillance de la qualité des données :

Shell/Griffin/python

2. Plateforme de développement

(1) Framework de traitement de données volumineuses Hadoop

特性:处理、存储、分析、分布式、非结构化数据、开源框架
	 低成本、高可靠、高扩展、高有效、高容错
语言:Java
意义:大数据分布式系统基础架构、数据管理系统、数据分析
	 大规模并行处理框架、生态圈

1. Cadre de calcul distribué hors ligne MapReduce sur disque

磁盘离线批处理
计算分析

2. Système de fichiers distribué HDFS

3. Système de gestion de stockage de données en temps réel HBase

列族数据库、非关系型数据库

4. Système de coordination distribué du cluster Zookeeper

集群管理、分布式锁

5. Entrepôt de données Hive hors ligne

6. Plate-forme de gestion des ressources de planification des opérations de fil

7. TeZ (calcul DAG)

计算分析

8. Spark (informatique en mémoire)

计算分析

9. Pig : Traitement des données en continu

提供类似sql语句查询
轻量级编程语言

10. Oozie : système de planification des flux de travail

11. Flume : collecte liée aux grumes

美团

12. Sqoop : importation et exportation complète des données

数据库ELT工具
关系型数据库到HDFS、HBase、Hive互导

13. Ambari (couche supérieure) : outil de déploiement

Hadoop快速部署工具

(2) Cadre de calcul parallèle de la mémoire générale Spark

特性:快速、易用、通用、随处
语言:Scala、函数式、面向对象
意义:大数据计算分析引擎
内存、可落地到磁盘

1, noyau d'étincelle

2、Spark SQL

3. Spark Streaming : bibliothèque de traitement de flux

4, graph-parallel (GraphX) : bibliothèque de traitement parallèle de graphes

5. ML (MLlib) : bibliothèque d'apprentissage automatique

6. Shark SQL : bibliothèque de requêtes SQL parallèle

7. HDFS, Tachyon : système de stockage de fichiers distribué (stockage de grandes quantités de données)

8. Mesos, YARN : cadre de gestion des ressources (planification des tâches informatiques)

3. Entrepôt de données

4. Analyse des données

5. Apprentissage automatique

Je suppose que tu aimes

Origine blog.csdn.net/qq_25482375/article/details/124353432
conseillé
Classement