Système de technologie Big Data (mise à jour à long terme)

préambule

Au cours de la période de 2018 à 2021, l'auteur a lu plus de 200 livres et chroniques liés au big data.

Cette colonne est le travail minutieux de l'auteur basé sur des années de notes de lecture, combinées à sa propre expérience dans le développement de données volumineuses.

Dans le même temps, l'auteur a également classé les documents cités en fonction du degré de recommandation personnelle.Pour plus de détails, veuillez vous référer aux références.

Venez faire attention, merci beaucoup!

insérez la description de l'image ici


Compagnon de cette colonne

insérez la description de l'image ici

100 questions pour résoudre le système théorique du big data

100 questions pour résoudre la machine virtuelle Java

100 questions pour résoudre la concurrence Java


Structure du répertoire

insérez la description de l'image ici

HDFS(3.2.2)

  1. Qu'est-ce qu'Hadoop ?
  2. Pourquoi utiliser Hadoop ?
  3. Quelles sont les nouvelles fonctionnalités de Hadoop3.x ?
  4. Quelle est la différence entre Hadoop1.x et Hadoop2.x ?
  5. Quel est l'objectif de conception de HDFS ?
  6. Quelles sont les exigences de conception de HDFS ?
  7. Qu'est-ce qu'HDFS ?
  8. Que pensez-vous de l'idée de conception de HDFS?
  9. Quelle est la différence entre HDFS et les systèmes de fichiers ordinaires ?
  10. Explication graphique détaillée de l'architecture HDFS
  11. Quel est le rôle de SecondaryNameNode ?
  12. Qu'est-ce que le mécanisme de pulsation HDFS ?
  13. Comment diviser des fichiers volumineux sur HDFS ?
  14. Le jeu de blocs est-il aussi grand que possible ? L'ensemble de blocs est-il aussi petit que possible ?
  15. Qu'est-ce que la haute disponibilité et la fédération de HDFS ?
  16. Que sont les instantanés HDFS ?
  17. Qu'est-ce que le principe de haute disponibilité de HDFS ?
  18. Quelles sont les conceptions tolérantes aux pannes de HDFS ?
  19. Qu'est-ce que le processus de lecture et d'écriture HDFS ?
  20. Comment HDFS supprime-t-il les données ?
  21. Qu'y a-t-il de mal à ce que HDFS stocke beaucoup de petits fichiers ? Comment stocker beaucoup de petits fichiers ?
  22. Qu'est-ce qu'un SequenceFile ? comment utiliser?
  23. Que sont les MapFiles HDFS ?
  24. Qu'est-ce que la sérialisation Hadoop ?
  25. Que sont les RPC Hadoop ?
  26. Quelle est la stratégie de stockage du bloc Block ? Quelle est la stratégie de placement des répliques HDFS ?
  27. Qu'est-ce que le mécanisme de réplication HDFS ?
  28. Qu'est-ce que la reconnaissance des racks HDFS ?
  29. Quelles sont les stratégies d'équilibrage de charge de données de HDFS ?
  30. Comment pensez-vous que HDFS résout le problème de coût de stockage causé par trois copies ? Qu'est-ce que la technologie de code d'effacement de fichier de Hadoop3.x ?
  31. HDFS prend-il en charge le stockage SSD ?
  32. Qu'est-ce que la gestion centralisée du cache HDFS ?
  33. Quel est le processus de démarrage de HDFS ?
  34. Comment HDFS gère-t-il les autorisations ?
  35. Comment HDFS gère-t-il les quotas ?
  36. Qu'est-ce que l'archive de fichiers (Archive) de HDFS ?
  37. Comment comprendre le modèle de sécurité de HDFS ?
  38. Comment assurer la sécurité des données de HDFS ?
  39. Qu'est-ce que l'authentification Kerberos pour HDFS ?
  40. Quelles sont les opérations de ligne de commande couramment utilisées pour HDFS ?
  41. Comment écrire du code HDFS ?
  42. Comment transférer des données entre deux clusters HDFS ?
  43. Quelle est la configuration système requise pour les clusters Hadoop dans les environnements de production ?
  44. Comment régler HDFS ?
  45. Comment HDFS fonctionne-t-il et s'entretient-il ?
  46. Comment gérer les exceptions courantes dans HDFS ?

MapReduce(3.2.2)

  1. Qu'est-ce que MapReduce ? Quelles sont les caractéristiques ?
  2. Qu'est-ce que le modèle de programmation MapReduce ?
  3. Pourquoi MapReduce devrait-il être éliminé ?
  4. Flux de travail MapReduce ?
  5. Explication graphique détaillée de MapReduce sur YARN
  6. Comment résoudre le problème de biais des données MapReduce ?
  7. Comment écrire du code MapReduce ?
  8. Qu'est-ce qu'un compteur MapReduce (Compteur) ?
  9. Comment régler MapReduce ?

FIL (3.2.2)

  1. Quelle est l'architecture de YARN ? Quels sont les composants de base de YARN ?
  2. Parlez-moi de votre compréhension du framework YARN ?
  3. Quel est le processus de soumission de candidature YARN ?
  4. Quels ordonnanceurs y a-t-il dans YARN ?
  5. Quelles sont les conceptions à haute disponibilité de YARN ?
  6. Comment accorder YARN?
  7. Selon vous, quels sont les défauts des schémas de planification traditionnels Yarn et Mesos ? Qu'est-ce que Quasar ?

insérez la description de l'image ici

Gardien de zoo(3.7.0)

  1. Zookeeper 3.6.3 Tutoriel d'installation et de déploiement
  2. Qu'est-ce que Zookeeper ?
  3. Quelles sont les fonctionnalités de ZooKeeper ?
  4. Quels sont les scénarios d'application de ZooKeeper ?
  5. Comment implémenter des verrous distribués avec ZooKeeper ?
  6. Quel est le mécanisme d'élection de ZooKeeper ?
  7. Qu'est-ce que le mécanisme Watch de ZooKeeper ?
  8. Explication détaillée de l'algorithme Paxos

insérez la description de l'image ici

Ruche(3.1.2)

  1. Comment installer et déployer Hive ?
  2. Qu'est-ce que la ruche ? Quelles sont les caractéristiques ?
  3. La différence entre Hive et base de données ?
  4. Quelle est la différence entre le mode lecture et le mode écriture de Hive ?
  5. Quelle est l'architecture du système Hive ?
  6. Quels sont les types de données de Hive ?
  7. Qu'est-ce que le modèle de données Hive ?
  8. Quelle est la différence entre les tables internes et externes de Hive ?
  9. Quelle est la table de partition de Hive ?
  10. Comment fonctionne Hive ?
  11. Comment importer et exporter des données Hive ?
  12. Quelle est la partition statique et la partition dynamique de Hive ?
  13. Comment associer la table de partition Hive aux données en téléchargeant directement les données dans le répertoire de partition (hdfs) ?
  14. Plus de partitions sont-elles meilleures dans Hive ?
  15. Qu'est-ce que la table à compartiments de Hive ? quel est l'effet?
  16. La table de compartiment Hive peut-elle importer des données via un chargement direct ?
  17. Quelle est la différence entre le partitionnement Hive et le bucketing ?
  18. Quelle est la différence entre trier par, trier par, distribuer par et regrouper par ?
  19. Les fonctions agrégées peuvent-elles être écrites après order by, pourquoi ?
  20. Dans quelles circonstances Hive peut-il éviter MapReduce ?
  21. Comment choisir le format de compression des données de Hive ?
  22. Comment choisir le format de stockage de fichiers de Hive ?
  23. Qu'est-ce que le SerDe de Hive ?
  24. Comment résoudre le scénario de segmentation multi-caractères dans Hive ?
  25. Comment régler Hive ?

insérez la description de l'image ici

HBase(2.4.4)

  1. Comment installer et déployer HBase ?
  2. Qu'est-ce que HBase ? Quelles sont les caractéristiques ?
  3. Quelle est la différence entre HBase et RDBMS ?
  4. Quelle est l'architecture globale de HBase ?
  5. Quel est le modèle de données de la table HBase ?
  6. Quel est le principe de stockage des données de HBase ?
  7. Quels sont les mécanismes flush et compacts de HBase ?
  8. Quel est le mécanisme de division de région de HBase ?
  9. Qu'est-ce que le pré-partitionnement des tables HBase ? Pourquoi la prépartition ? Comment prépartitionner ?
  10. Qu'est-ce qu'un point d'accès HBase ? Comment résoudre les points chauds HBase ?
  11. Comment comprendre les principes internes de HBase ?
  12. Quel est le processus de lecture et d'écriture de données dans HBase ?
  13. Un article pour comprendre le BlockCache de HBase
  14. Un article pour comprendre le coprocesseur de HBase
  15. Un article pour comprendre le mécanisme BulkLoad de HBase
  16. Un article pour comprendre le MSLAB de HBase
  17. Un article pour démarrer avec l'API Java de HBase
  18. Comment équilibrer la charge HBase ?
  19. Comment configurer la nouvelle tentative RPC du client HBase ?
  20. Comment HBase évite-t-il le Full GC ?
  21. Quelles raisons peuvent provoquer l'arrêt de RegionServer de HBase ?
  22. Les opérations Shell de HBase sont toutes disponibles

insérez la description de l'image ici

Canal(1.9.0)

  1. Qu'est-ce que Flume ? Quelles sont les caractéristiques de Flume ?
  2. Quelle est l'architecture de Flume ?
  3. Comment Flume assure-t-il la fiabilité ?
  4. Quels sont les niveaux de fiabilité de Flume ?
  5. Comment Flume personnalise-t-il Mysql Source ?
  6. Comment Flume personnalise-t-il Mysql Sink ?
  7. Comment Flume implémente-t-il la reprise des données ?
  8. Quel est le cas d'utilisation de Flume ?

insérez la description de l'image ici

Sqoop (a arrêté la maintenance)

  1. Qu'est-ce que Sqoop ?
  2. Quels sont les scénarios d'utilisation de Sqoop ?

insérez la description de l'image ici

Azkaban(3.30.1)

  1. Pourquoi avez-vous besoin d'un système de planification de flux de travail ?
  2. Qu'est-ce qu'Azkaban ? Quelles sont les caractéristiques ?
  3. Quelle est l'architecture de base d'Azkaban ?
  4. Quels sont les trois modes de déploiement d'Azkaban ?

insérez la description de l'image ici

Kafka(2.8)

  1. Pourquoi avoir un système de file d'attente de messages/moteur de messages ?
  2. Qu'est-ce que Kafka ?
  3. Pourquoi utiliser Kafka ?
  4. Quels sont les concepts de base de Kafka ?
  5. Qu'est-ce que la solution de déploiement de cluster en ligne de Kafka ?
  6. Quelles sont les commandes courantes du cluster Kafka ?
  7. Quels sont les trois mécanismes du ack de Kafka ?
  8. Comment améliorer le débit du producteur de Kafka ?
  9. Comment s'assurer que les messages Kafka ne sont pas perdus ?
  10. Comment Kafka garantit-il l'ordre des messages ?
  11. Comment gérer l'arriéré de millions de messages de Kafka ?
  12. Comment Kafka implémente-t-il le partitionnement personnalisé ?
  13. Comment écrire du code client Kafka ?
  14. Quels sont les algorithmes de compression du producteur Kafka ?
  15. Quel est le producteur idempotent de Kafka ?
  16. Quel est le producteur de transactions de Kafka ?
  17. Quelle est la différence entre le Producteur idempotent de Kafka et le Producteur transactionnel ?
  18. Comment le producteur Java de Kafka gère-t-il les connexions TCP ?
  19. Comment le consommateur Java de Kafka gère-t-il les connexions TCP ?
  20. Quels sont les intercepteurs de Kafka ? comment utiliser?

insérez la description de l'image ici

Grand (1.13.2)

  1. Comparaison des frameworks de calcul de flux ?
  2. Comment déployer et installer Flink ?
  3. Qu'est-ce que Flink ? Quelles sont les caractéristiques ?
  4. Quel est le modèle de programmation de Flink ?
  5. Qu'est-ce que le module fonctionnel Flink ?
  6. Quelle est l'architecture système de Flink ?
  7. Quels sont les modes de déploiement de cluster de Flink ?
  8. Un article pour comprendre Flink's Window
  9. Frères du temps de Flink
  10. Un article pour comprendre le mécanisme de filigrane de Flink
  11. Conservation et restauration de l'état de Flink
  12. Processus de soumission de session YARN d'Apache Flink
  13. Processus de soumission par tâche d'Apache Flink
  14. Processus de soumission de session K8s d'Apache Flink

insérez la description de l'image ici

ELK(6.7.0)

  1. Comment installer et déployer Elasticsearch ?
  2. Qu'est-ce qu'ELK ?
  3. Comment installer le plugin elasticsearch-head ?
  4. Quels sont les concepts de base d'Elasticsearch ?
  5. Comment Elasticsearch gère-t-il les index ?
  6. Un article pour démarrer avec les requêtes Elasticsearch
  7. Comment Elasticsearch définit-il les mappages de types de champs ?
  8. La solution de pagination d'Elasticsearch
  9. Installation et utilisation du séparateur de mots chinois Elasticsearch IK

insérez la description de l'image ici

Maxwell

  1. Qu'est-ce que Maxwell ?

insérez la description de l'image ici

Presto

  1. Un article sur Presto

insérez la description de l'image ici

ClickHouse

Qu'est-ce que Click House ? Quelles sont les fonctionnalités de ClickHouse ?


insérez la description de l'image ici

Kylin

  1. Qu'est-ce qu'Apache Kylin ?
  2. Quelles sont les fonctionnalités d'Apache Kylin ?
  3. Qu'en est-il de l'estimation d'Apache Kylin ?
  4. Quel est le workflow d'Apache Kylin ?
  5. Un article pour comprendre l'architecture technique d'Apache Kylin 4.x

insérez la description de l'image ici

Kubernetes

  1. Qu'est-ce que Kubernetes ?
  2. Quelles sont les fonctionnalités de Kubernetes ?
  3. Les concepts de base de Kubernetes sont balayés
  4. Que sont les pods dans Kubernetes ?
  5. Quelle est l'architecture système de Kubernetes ?

insérez la description de l'image ici

CDH/CDP

  1. Que sont les CDH/CDP ?
  2. Cloudera Manager - outil de gestion de centre de données d'entreprise de bout en bout

insérez la description de l'image ici

Spark Core (3.3.0-SNAPSHOT)

Étant donné que l'auteur a étudié le code source d'Apache Spark, la version du code source de Spark impliquée dans la colonne est basée sur la branche principale de github. Le numéro de version actuel est : 3.3.0-SNAPSHOT

Explication détaillée du papier Spark RDD

Spark RDD Paper Explication détaillée (1) Résumé et introduction

Spark RDD Paper Explication détaillée (2) RDD

Explication détaillée du document Spark RDD (3) Interface de programmation Spark

Explication détaillée des documents Spark RDD (4) Exprimer les RDD

Spark RDD Paper Explication détaillée (5) Implémentation

Spark RDD Paper Explication détaillée (6) Évaluation

Explication détaillée de la discussion sur le document Spark RDD (7)

Explication détaillée des travaux liés au document Spark RDD (8) et fin


Explication détaillée de la nouvelle fonctionnalité de lecture aléatoire basée sur le push dans la version Spark 3.2.0

Spark 3.2.0 nouvelle fonctionnalité push-based shuffle papier explication détaillée (1) résumé et introduction

Spark 3.2.0 nouvelle fonctionnalité push-based shuffle papier explication détaillée (2) contexte et motivation

Spark 3.2.0 nouvelle fonctionnalité papier aléatoire explication détaillée (3) conception du système

Spark 3.2.0 nouvelle fonctionnalité papier aléatoire basé sur push explication détaillée (4) pour réaliser l'optimisation

Spark 3.2.0 nouvelle fonctionnalité push-based shuffle papier explication détaillée (5) résultats de l'évaluation

Spark 3.2.0 nouvelle fonctionnalité papier aléatoire explication détaillée (6) travail connexe

Spark 3.2.0 nouvelle fonctionnalité push-based shuffle papier explication détaillée (7) conclusion


essai

  1. Comment devenir Contributeur d'Apache Spark ?
  2. Installation et déploiement de Spark 2.3
  3. Pourquoi Spark est-il si génial ?
  4. Les concepts de base de Spark Core sont tous en une seule fois
  5. Que sont les RDD ?
  6. Qu'est-ce que SparkContext ? quel est l'effet?
  7. Qu'est-ce que SparkConf ? quel est l'effet?
  8. Qu'est-ce que SparkEnv ? quel est l'effet?
  9. Qu'est-ce que SecurityManager ? quel est l'effet?
  10. Qu'est-ce que DAGScheduler ? quel est l'effet?
  11. Comment DAGScheduler divise-t-il la scène ?
  12. Quel est le processus de planification de DAGScheduler ?
  13. Qu'est-ce que le planificateur de tâches ? quel est l'effet?
  14. Reportez-vous à Apache Spark pour réaliser une compilation hybride maven de Java et Scala
  15. Comment unifier le style de code de Scala ? Vous pouvez copier cette configuration scalastyle sans réfléchir
  16. Reportez-vous au code source d'Apache Spark pour personnaliser l'implémentation de l'outil d'impression de journaux Logging
  17. Erreur lors de la compilation du code source d'Apache Spark ? C'est parce que vous avez omis l'opération clé
  18. Implémentation de la régression linéaire à l'aide de Spark MLlib
  19. Utilisation de Spark GraphX ​​​​pour implémenter l'algorithme PageRank
  20. Nouvelle fonctionnalité de Spark 3.0 - Planification des tâches compatible avec les accélérateurs
  21. Résumé des exceptions Spark

Spark SQL(3.3.0-INSTANTANÉ)

Fonctions intégrées Spark SQL

Fonctions intégrées Spark SQL (1) Fonctions de tableau (basées sur Spark 3.2.0)

Fonctions intégrées Spark SQL (2) Fonctions de mappage (basées sur Spark 3.2.0)

Fonctions intégrées Spark SQL (3) Fonctions de date et d'horodatage (basées sur Spark 3.2.0)

Fonctions intégrées Spark SQL (4) Fonctions JSON (basées sur Spark 3.2.0)

Fonctions intégrées Spark SQL (5) Fonctions d'agrégation (basées sur Spark 3.2.0)

Fonctions intégrées Spark SQL (6) Fonctions de fenêtre (basées sur Spark 3.2.0)


Analyse du code source des fonctions Spark SQL.scala

Analyse du code source des fonctions Spark SQL.scala (1) Fonctions de tri (basées sur Spark 3.3.0)

Analyse du code source des fonctions Spark SQL.scala (2) Fonctions d'agrégation (basées sur Spark 3.3.0)

Analyse du code source des fonctions Spark SQL.scala (3) Fonctions de fenêtre (basées sur Spark 3.3.0)

Analyse du code source Spark SQL functions.scala (4) Fonctions non agrégées (basées sur Spark 3.3.0)

Analyse du code source Spark SQL functions.scala (5) Fonctions mathématiques (basées sur Spark 3.3.0)

Analyse du code source des fonctions Spark SQL.scala (6) Fonctions diverses (basées sur Spark 3.3.0)

Analyse du code source des fonctions Spark SQL.scala (7) Fonctions de chaîne (basées sur Spark 3.3.0)

Analyse du code source Spark SQL functions.scala (huit) Fonctions DateTime (basées sur Spark 3.3.0)

Analyse du code source des fonctions Spark SQL.scala (9) Fonctions de collecte (basées sur Spark 3.3.0)

Fonctions Spark SQL.Analyse du code source scala (10) Fonctions de transformation de partition (basées sur Spark 3.3.0)

Fonctions Spark SQL.Analyse du code source scala (11) Fonctions Scala UDF (basées sur Spark 3.3.0)

Fonctions Spark SQL.Analyse du code source scala (12) Fonctions Java UDF (basées sur Spark 3.3.0)


Analyse du code source du workflow Spark SQL

Présentation de l'analyse du code source du workflow Spark SQL (1) (basé sur Spark 3.3.0)

Analyse du code source du workflow Spark SQL (2) étape d'analyse (basée sur Spark 3.3.0)

Analyse du code source du workflow Spark SQL (3) étape d'analyse (basée sur Spark 3.3.0)

Étape d'optimisation de l'analyse du code source du flux de travail Spark SQL (4) (basée sur Spark 3.3.0)

Étape de planification de l'analyse du code source du flux de travail Spark SQL (5) (basée sur Spark 3.3.0)


essai

  1. Comment Spark SQL s'est-il développé ?
  2. Qu'est-ce que Spark SQL ?
  3. Que fait Spark SQL ?
  4. Qu'est-ce que le modèle de programmation DataFrame ?
  5. Quelle est la différence entre RDD et DataFrame ?
  6. Interprétation de l'ensemble de données du point de vue du code source Spark
  7. Parler de l'idée de Spark SQL pour réaliser la gestion de la qualité des tâches
  8. Comment utiliser Dataset.show dans Spark ? Quels sont les endroits à noter ?
  9. Mécanisme AQE de Spark SQL
  10. Comment Spark SQL personnalise-t-il les extensions ?
  11. Quels types de JOINs Spark SQL prend-il en charge ?
  12. Comment Apache Spark choisit-il la stratégie JOIN ?
  13. Qu'est-ce que l'API Table Catalog de la version Spark 3.x ?
  14. Analyse du code source du mécanisme WSCG de Spark 3.x
  15. Analyse du code source du système d'échange Spark 3.x
  16. Un article pour apprendre le développement de code de lecture et d'écriture de données Spark
  17. Un article pour comprendre le CacheManager de Spark 3.x
  18. Un article pour comprendre le système de catalogue de Spark 3.x

Références (triées par recommandation)

insérez la description de l'image ici

Les documents officiels doivent être lus en premier, les colonnes de Geek Time ne sont pas mauvaises, et les quelques listes de recommandations de livres sont fortement recommandées !
Il n'est pas nécessaire de lire les derniers noms, j'ai juste cité quelques mots donc je les ai ajoutés.
Les citations de blog ne sont pas incluses dans les classements de la liste recommandée
et seront mises à jour au fur et à mesure que la colonne sera mise à jour~

  1. Hadoop 3.2.2 Documentation officielle
  2. Spark 3.1.2 Documentation officielle
  3. Documentation officielle de Kafka 2.8
  4. Documentation officielle HBase 2.4.4
  5. Hive 3.1.2 Documentation officielle
  6. Colonne Geek Time "Technologie de base de Kafka et combat réel" Hu Xi
  7. Colonne Geek Time "Apprendre le Big Data à partir de 0" Li Zhihui
  8. Geek Time Column "Combat réel de traitement de données à grande échelle" Cai Yuannan
  9. Colonne Geek Time "Principes fondamentaux de Spark et combat pratique" Wang Lei
  10. "Explication détaillée de l'architecture Big Data : de l'acquisition de données à l'apprentissage en profondeur" édité par Zhu Jie et Luo Hualin
  11. "Illustrated Spark: Core Technology and Case Practice" édité par Guo Jingzhan
  12. "Analyse du noyau Spark SQL" Zhu Feng, Zhang Shaoquan, Huang Ming
  13. "Spark Big Data Business Practice Trilogy: Kernel Decryption Business Case Performance Tuning 2nd Edition" édité par Wang Jialin, Duan Zhihua, Xia Yang
  14. "L'art de la conception du noyau Spark : conception et mise en œuvre de l'architecture" par Geng Jia'an
  15. "Hadoop Experts : Management, Tuning, and Spark YARN HDFS Security" (États-Unis) par Sam R. Alapati ; traduit par Zhao Guoxian et d'autres
  16. "Hadoop Definitive Guide (Third Edition)" (États-Unis) White (White, T.); Traduit par l'École des sciences et de l'ingénierie des données, East China Normal University
  17. "Enterprise Data Lake" (Inde) Tomcy John (Tomcy John), (Inde) Pankaj Misra (Pankaj Misra); Traduit par Zhang Shiwu, Li Xiang, Zhang Haolin
  18. "Spark Kernel Mechanism Analysis and Performance Tuning" édité par Wang Jialin et d'autres
  19. "Hadoop Massive Data Processing - Explication technique détaillée et pratique de projet 2e édition" par Fan Donglai
  20. "Explication détaillée du système de technologie Big Data : principes, architecture et pratique" par Dong Xicheng
  21. "Hadoop Big Data Technology Principles and Applications" écrit par Dark Horse Programmer
  22. "Hadoop big data mining de l'entrée à la pratique avancée : version d'enseignement vidéo" édité par Deng Jie
  23. "Hadoop & Spark Big Data Development Practice" édité par Xiao Rui et Lei Gangyue
  24. « Big Data Development and Application » édité par Qingdao Yinggu Education Technology Co., Ltd., Shandong Business and Technology College
  25. « La technologie Hadoop et l'analyse des applications à l'ère du Big Data » par Wei Pengcheng, Shi Chengxiang, Cai Yinying
  26. "De Paxos à Zookeeper : Principes et pratique de la cohérence distribuée" par Ni Chao
  27. "Technologie Big Data et recherche d'applications" par Hu Pei, Han Pu
  28. "Technologie Big Data et pratique des applications à l'ère du cloud" Zhu Lihua
  29. "Technologie et application du Big Data dans le cloud computing" par Liang Fan
  30. "Introduction à la technologie Big Data" édité par Chen Ming
  31. Rédacteur en chef Lou Yan de "Big Data Application Fundamentals"
  32. "Hadoop Big Data Analysis" édité par Gao Shuibin, Qian Lianghong, Fang Zhijun
  33. Rédacteur en chef Zhu Yangyong de "Big Data Resources"
  34. "Construction, exploitation et maintenance d'un environnement à haute disponibilité de données volumineuses" édité par Tianjin Binhai Xunteng Technology Group Co., Ltd.
  35. Utilisation de MapReduce-Counter - réaliser rapidement les statistiques du nombre de lignes dans les gros fichiers

Je suppose que tu aimes

Origine blog.csdn.net/Shockang/article/details/117266839
conseillé
Classement