La feuille de route d'apprentissage Big Data (version complète 2023) convient à la collecte

Le développement du Big Data est un domaine technique impliquant le traitement et l'analyse de données à grande échelle. Avec le développement et l'application continus de la technologie du Big Data, la demande de développeurs de Big Data augmente progressivement. Les perspectives d'emploi sont relativement bonnes, en particulier dans les secteurs technologiques et les entreprises axées sur les données. Les perspectives de développement du Big Data présentent encore de nombreux avantages, tels qu'un large éventail d'emplois, des salaires et des avantages sociaux élevés, une bonne entreprise et des avantages privés, etc. Il y a maintenant de nombreux amis qui souhaitent rejoindre le cercle du développement du Big Data, mais ils ne le font pas. Je sais comment apprendre. Je ne sais pas comment apprendre. En réponse à ce problème, je vais aujourd’hui partager avec vous une feuille de route pour l’apprentissage du Big Data :

 La feuille de route est divisée en 7 étapes :

Phase 1 - Base d'entrepôt de données

 1.Base de données relationnelle MysQL

(Introduction MySQL, installation MySQL, syntaxe de base MySQL, syntaxe avancée MySQL, architecture système MySQL, moteur de stockage MySQL, index MySQL, sauvegarde et récupération MySQL, maître-esclave MySQL, réplication maître-maître, procédures stockées MySQL, base de données et table MySQL, Cas complet MySQL, optimisation des performances MySQL)

2.Technologie de programmation Python

(Introduction à la syntaxe de base Python, aux boucles Python, aux collections Python, aux fonctions Python, aux opérations Python orientées objet et Python sur diverses bases de données)

 Phase 2-Linux et Hadoop

1.Hadoop

(Introduction au Big Data, ensemble de trois parties Hadoop, architecture du système HDFS, bloc HDFS, HDFS FSImage et modifications du point de contrôle HDFS,
processus de lecture et d'écriture HDFS, fonctionnement du shell HDFS, architecture du système YARN, stratégie de planification des ressources YARN, configuration de la planification YARN, YARN -soumission de travaux basée sur)

2.Système d'exploitation Linux

(Opération de commande, gestion des autorisations, installation de logiciels, analyse du noyau du système)

3.Programmation de scripts Shell

(Introduction au shell, syntaxe shell de base, syntaxe shell avancée, cas de programmation shell)

 Phase 3 – Entreposage de données et technologie ETL

1.Ruche

(Introduction à Hive, installation et déploiement de Hive, métadonnées Hive, tables internes et externes Hive, types de données Hive, SQL de base Hive, partitionnement Hive, bucketing Hive, SQL avancé Hive, fonctions intégrées couramment utilisées par Hive, fonctions de fenêtre Hive, Hive fonction de personnalisation)

2.Datax

(Présentation de DataX30, conception du framework DataX3.0, système de plug-in DataX3.0, architecture de base DataX3.0, six avantages majeurs de DataX3.0, plug-in DataX Reader, plug-in DataX Writer, boîtier de synchronisation de données DataX, DataX optimisation de la synchronisation des données)

3.Teinte

(Présentation de Hue, architecture du système Hue, connecteur Hue, éditeur Hue, fonctionnement Hue)

4.Cliquez sur Maison

(Fonctionnalités et performances, installation et déploiement du cluster, opérations de base du cluster, types de données, moteur de table de base de données ClickHouse, fonctions communes ClickHouse, colonne, champ et type de données, flux de blocs et de blocs, analyseur et interprète, partitionnement et copie, outils clients)

5.DolphinScheduler

(Introduction à DolphinScheduler, fonctionnalités de DolphinScheduler, architecture système DolphinScheduler, processus de démarrage de DolphinScheduler, idées de conception d'architecture DolphinScheduler, installation et déploiement de DolphinScheduler, projets de planification DolphinScheduler, tâches de planification DolphinScheduler)

6. Technologie d'entrepôt de données

(Présentation de l'entrepôt de données, architecture de l'entrepôt de données, modélisation des données, tableaux de faits et tableaux de dimensions, domaines et sujets, tableaux zippés, architecture multidimensionnelle, spécifications de l'entrepôt de données, gestion des métadonnées, entrepôts de données hors ligne et en temps réel)

7. Projet d'entrepôt de données de vente au détail

(Présentation du projet, architecture technique, architecture du projet, processus projet, mise en œuvre et déploiement du projet)

8.Canal

(Introduction à Flume, architecture du système Flume, composants Flume, source Flume, canal Flume, évier Flume, intercepteur Flume, sélecteur Flume, cas Flume, optimisation Flume)

9.SparkSQL

(Introduction à Spark, introduction à SparkSQL, abstraction des données SparkSQL, chargement des données SparkSQL, implémentation des données SparkSQL, fonctions intégrées SparkSQL, fonctions personnalisées SparkSQL, intégration SparkSQL et Hive, processus d'exécution sous-jacent SparkSQL)

 Phase 4 - Analyse et visualisation des données BI

1. Projet de plateforme de données Retail BI

(Introduction au projet, technologie du projet, processus du projet, recherche, développement et mise en œuvre du projet)

2.Superset

(Aperçu du Superset, installation et déploiement du Superset, source de données Superset, graphiques Superset, tableaux de bord Superset, Superset SOL-Lab, visualisation de la carte Superset, cas de rapport Superset, cas grand écran Superset, gestion des autorisations Superset)

3.FineBI&FineReport

(Introduction à Fanruan, installation, déploiement et démarrage, paramètres initiaux, première introduction à FineBI, dictons FineBI, intégration de FineBI et des sources de données, traitement des données, création de graphiques et analyse de données, tableaux de bord et partage, applications fonctionnelles, modèles d'analyse de données, données traitement Interagir et relier les composants avec des calculs, des tableaux et des graphiques, le saut et l'exploration des données, le découpage et le filtrage des données)

 Étape 5-Auto-recherche du projet

1. Projet d'entrepôt de données auto-développé

(Projet d'entrepôt de données auto-recherché, projet de plate-forme Big Data d'apprentissage dans le cloud, projet de portrait d'utilisateur d'apprentissage dans le cloud, projet de plate-forme Big Data de commerce électronique, plate-forme Big Data de questions-réponses)

traitement et calcul, interaction des composants des tableaux et des graphiques et liaison des composants, saut et exploration des données, découpage et filtrage des données)

 Étape 6 - Sprint pour l'emploi

1. Explication des questions d'entretien à haute fréquence

(Optimisation des performances MySQL, questions d'entretien haute fréquence Linux, solution de petits fichiers HDFS, optimisation YARN, solution de biais de données Hive, questions de scénario SQL haute fréquence, principe d'exécution SparkSQL, optimisation des performances SparkSQL, questions d'entretien haute fréquence d'entrepôt de données, performances BI optimisation)

2. Reprendre le guidage

(Questions d'entretien Linux haute fréquence, solution de petits fichiers HDFS, optimisation YARN, solution de biais de données Hive, questions de scénario SQL haute fréquence)

 Étape 7 - Développement du sujet

1. Thèmes relatifs à la qualité des données et à la gouvernance

(Introduction à la qualité des données, introduction à la gouvernance des données, introduction à la gestion des métadonnées, introduction au lignage des données, cas de qualité basé sur DolphinScheduler, cas de qualité des données et gouvernance basée sur Atlas)

2. Sujet spécial sur le service Alibaba Cloud Big Data

(Introduction aux services Big Data d'Alibaba Cloud, aux composants DataWorks et MaxCompute, à l'intégration de données Alibaba Cloud et à d'autres composants courants, au développement de données hors ligne, à la planification des tâches)

Ce qui précède est la voie d'apprentissage du Big Data. J'espère que cela pourra aider les amis qui apprennent le Big Data ou qui souhaitent apprendre le Big Data !

Je suppose que tu aimes

Origine blog.csdn.net/longz_org_cn/article/details/130152191
conseillé
Classement