Introduction au Big Data et à la plateforme Hadoop

Introduction au Big Data et à la plateforme Hadoop

définition

Les mégadonnées font référence à un ensemble de données dont la taille et la complexité ne peuvent pas être capturées, gérées et traitées dans un délai acceptable à un coût raisonnable grâce aux outils et logiciels couramment utilisés. Ces difficultés incluent les revenus de données, le stockage, la recherche, le partage, l'analyse et la visualisation. Le Big Data doit répondre à trois caractéristiques de base (3V), le volume, la variété et la vitesse. La quantité de données fait référence à la quantité de données à traiter par le big data, qui atteint généralement le niveau de TB voire de PB. La diversité des données signifie que les données traitées comprennent des données structurées, des données non structurées (vidéo, audio, pages Web) et des données semi-structurées (xml, html). La vitesse élevée signifie que les mégadonnées doivent pouvoir circuler rapidement et être traitées rapidement.

Contexte du développement de Big Data

Explosion de données. Avec l'application des technologies de l'information, la quantité de données mondiales a augmenté de façon exponentielle. La quantité totale de données au cours des dernières années a dépassé la quantité totale de données de l'histoire humaine. Les puces, les caméras et leurs capteurs respectifs sont situés dans tous les coins du monde, et les choses qui ne peuvent pas être détectées peuvent être surveillées. Les progrès continus de la technologie logicielle et matérielle créent également des conditions pour le traitement des mégadonnées.

Domaines d'application du Big Data

  • Dans le domaine public, la fourniture interministérielle de services de mégadonnées peut réduire considérablement le temps de récupération et de traitement. Améliorer l'efficacité des services publics.
  • Les entreprises peuvent améliorer les performances des produits en collectant et en analysant les données massives générées lors de l'utilisation du produit.
  • Le Big Data peut aider les entreprises à différencier les utilisateurs de manière plus détaillée et à fournir des services personnalisés pour les différents besoins des utilisateurs. Il s'agit d'une méthode couramment utilisée dans le marketing et la gestion de crise.
  • Utilisez des algorithmes automatisés pour soutenir ou remplacer la prise de décision manuelle. L'analyse des mégadonnées peut considérablement améliorer les effets de la prise de décision, réduire les risques et découvrir des informations précieuses qui ne peuvent être découvertes par d'autres méthodes.
  • Modèle d'entreprise, innovation de produits et de services. Netflix a produit "House of Cards" sur la base des résultats de l'analyse de Big Data.

Thèmes de recherche Big Data

  1. Problème d'acquisition de données. Y compris quelles données doivent être enregistrées, quelles données doivent être supprimées et comment stocker de manière fiable les données dont nous avons besoin.
  2. Problèmes de structure des données. Le blog Weibo est constitué de données non structurées. Les images et les vidéos ont une structure de stockage et d'affichage, mais elles ne peuvent pas contenir d'informations sémantiques à récupérer. Si le contenu qui n'a pas de sémantique est converti dans un format structuré et qu'un traitement ultérieur est effectué, c'est un autre défi à relever.
  3. Problèmes d'intégration des données. Ce n'est qu'en reliant des données provenant de différentes sources que les données peuvent être pleinement utilisées.
  4. Analyse, organisation, extraction et modélisation des données
  5. Comment présenter les résultats de l'analyse

Produits Big Data pour les entreprises technologiques

  • Google: MapReduce
  • IBM: plate-forme d'analyse de données volumineuses InfoSphere
  • SAS: serveur d'analyse hautes performances et moteur de traitement de flux de données SAS DataFlux
  • EMC: Greenplum prend en charge le traitement parallèle massif
  • Teradata: Aster Data est basé sur MapReduce et fournit une variété de progiciels statistiques

Tendance du développement du Big Data

  • Ressources de données. Les mégadonnées sont devenues une ressource stratégique importante à laquelle les entreprises et la société prêtent attention, et elles sont devenues le centre de la ruée de tous.
  • Profondément intégré au cloud computing. Le Big Data est indissociable du traitement cloud, qui fournit des services de base flexibles et évolutifs pour le Big Data.
  • Faites des percées dans la théorie scientifique. Promouvoir le développement de technologies connexes telles que l'exploration de données, l'apprentissage automatique, l'intelligence artificielle et la science des données.

Étapes générales du traitement du Big Data

  1. Collecte de données.
    La première consiste à explorer ou à explorer. Par exemple, un moteur de recherche fait cela: il télécharge toutes les informations sur Internet dans son centre de données, puis vous pouvez les rechercher.
    La deuxième méthode est le push, il existe de nombreux terminaux qui peuvent m'aider à collecter des données. Par exemple, le bracelet Xiaomi peut télécharger vos données de fonctionnement quotidiennes, vos données de rythme cardiaque et vos données de sommeil vers le centre de données.

  2. La transmission des données
    généralement effectuée par le biais de la file d'attente, car la quantité de données est trop importante, les données devant être traitées seront utiles. Mais le système ne pouvait pas le gérer, alors j'ai dû m'aligner et le gérer lentement.

  3. Stockage du
    stockage des données pour garantir une tolérance aux pannes sûre, facile à perdre et élevée.

  4. Le traitement des données et l'analyse des
    données stockées sont des données brutes, les données brutes d'une pluralité de données désorganisées, il y a beaucoup de données de déchets, et doivent donc être nettoyées et filtrées pour donner des données de haute qualité. Pour des données de haute qualité, vous pouvez les analyser pour classer les données, ou découvrir la relation entre les données et acquérir des connaissances.

  5. Récupération de données et extraction
    des informations souhaitées facilement consultables. Exploiter la relation entre les informations.

Framework open source

En raison de ces caractéristiques du Big Data, de nombreux frameworks open source ont été générés pour sa collecte, sa transmission, son stockage, son traitement, son analyse et sa récupération.
traits Cadre
Stockage de fichiers Hadoop HDFS 、 Tachyon 、 KFS
Calcul hors ligne Hadoop MapReduce 、 Spark
Streaming, calcul en temps réel Storm 、 Spark Streaming 、 S4 、 Heron
Base de données KV, NOSQL HBase, Redis, MongoDB
La gestion des ressources YARN 、 Mesos
Collecte de journaux Flume 、 Scribe 、 Logstash 、 Kibana
Système de messagerie Kafka 、 StormMQ 、 ZeroMQ 、 RabbitMQ
Analyse des requêtes Ruche 、 Impala 、 Cochon 、 Presto 、 Phoenix 、 SparkSQL 、 Drill 、 Flink 、 Kylin 、 Druide
Service de coordination distribué Gardien de zoo
Gestion et surveillance des clusters Ambari 、 Ganglia 、 Nagios 、 Cloudera Manager
Exploration de données, apprentissage automatique Mahout 、 Spark MLLib
synchronisation des données Sqoop
Planification des tâches Oozie

Le cadre d'une plate-forme générale de Big Data est illustré dans la figure ci-dessous.
Introduction au Big Data et à la plateforme Hadoop
Hadoop HDFS et Hadoop MapReduce, en tant que pionniers du stockage et du traitement de Big Data, sont au cœur de la plate-forme Big Data. Voici les principes de base des deux cadres.

Principes de base de Hadoop HDFS

HDFS signifie Hadoop Distributed File System. HDFS est un système de fichiers distribué qui peut être déployé sur un cluster de serveurs. Le développement du langage Java peut être déployé sur n'importe quelle machine prenant en charge java.
HDFS a plusieurs concepts de base: NameNode, DataNode et block.
Le NameNode est responsable de la gestion des métadonnées de l'ensemble du système de fichiers distribué, c'est-à-dire du nom du chemin du fichier, de l'ID du bloc de données et de l'emplacement de stockage. Certaines choses doivent être enregistrées, telles que les nœuds faisant partie du cluster et le nombre de copies d'un bloc.
Introduction au Big Data et à la plateforme Hadoop
DataNode est le nœud qui stocke réellement les données de fichier. Le DataNode maintient la communication avec le NameNode pendant la pulsation. Si le DataNode n'envoie pas de pulsation après un délai d'expiration, le NameNode pensera que le DataNode a échoué et découvrira immédiatement quels blocs sont stockés sur le DataNode et sur quels serveurs ces blocs sont encore stockés, puis notifiera ces serveurs Copiez un autre bloc sur un autre serveur pour vous assurer que le nombre de sauvegardes de bloc stockées dans HDFS correspond au nombre défini par l'utilisateur. Même si un autre serveur tombe en panne, les données ne seront pas perdues.
Introduction au Big Data et à la plateforme Hadoop
Block est une unité de stockage dans HDFS. Lorsqu'un fichier est écrit dans HDFS, il est divisé en plusieurs blocs de blocs. La taille de bloc par défaut est de 128 Mo et chaque bloc de données a trois copies par défaut.
Introduction au Big Data et à la plateforme Hadoop
Écriture des données: Commencez par diviser le fichier en plusieurs blocs, et chaque bloc sera écrit dans trois DataNodes. Lequel des trois DataNodes est écrit est spécifié par le NameNode. Une fois l'écriture terminée, le NameNode enregistrera les informations. Différents blocs d'un même fichier peuvent être écrits dans des DataNodes complètement différents.
Introduction au Big Data et à la plateforme Hadoop
Lecture des données: lors de la lecture des données, appuyez sur le bloc pour lire. Pour chaque bloc, il obtiendra des informations du NameNode et saura de quel DataNode lire. En général, c'est le principe le plus proche. Tous les blocs du fichier sont lus, formant un fichier complet.
Et la machine client Datanode est la même: la distance est 0, indique le
client le plus récent Datanode sont des machines différentes et le même rack: distance de 2, un peu plus le
client est sur différents racks et Datanode même centre de données: La distance est de 4, un peu plus loin

Principes de base de Hadoop MapReduce

Hadoop MapReduce est un cadre de calcul distribué dans lequel les opérations peuvent être effectuées en parallèle sur plusieurs machines. L'utilisateur n'a besoin que de terminer le codage de l'opération elle-même et n'a pas besoin de se soucier des détails sous-jacents du calcul parallèle.
L'idée de MapReduce est très simple: il s'agit de classer certaines données via Map et de traiter le même type de données via Reduce. Les processus de mappage et de réduction sont exécutés en parallèle en utilisant la puissance de calcul du cluster. Le cœur du modèle de calcul est constitué des fonctions Map et Reduce, qui sont implémentées par les utilisateurs.
Introduction au Big Data et à la plateforme Hadoop
Lors de la découpe du grand ensemble de données d'origine en petits ensembles de données, le petit ensemble de données est généralement inférieur ou égal à la taille d'un bloc de HDFS, de sorte qu'un petit ensemble de données se trouve sur une machine physique, ce qui est pratique pour le calcul local. Le nombre de tâches de démarrage pour mapper et réduire peut être spécifié par l'utilisateur.
Introduction au Big Data et à la plateforme Hadoop
La figure ci-dessus montre un processus de MapReduce comptant le nombre d'occurrences de mots. Les données d'origine sont divisées en 4 sous-fichiers. Pour chaque sous-fichier, un résultat sous la forme <k2, v2> de <mot, nombre d'occurrences> sera généré selon la fonction Map de l'utilisateur. Combinez ensuite les <k2, v2> du même mot pour former la forme de <k2, List (v2)>, comme l'entrée de la fonction Réduire, le même k2 doit être distribué à la même tâche Réduire pour le traitement, par exemple, tous les calculs du mot lorem sont Terminé par la première tâche Réduire. Selon cette idée, même si le nombre de fichiers à compter est de plusieurs dizaines de millions et le nombre de mots de plusieurs milliers, avec le framework MapReduce, tant qu'il y a suffisamment de machines en cluster, le calcul peut être effectué dans un délai acceptable.

Application de l'industrie du Big Data

  • Internet: publicité ciblée, analyse du comportement des utilisateurs, recommandation de contenu, optimisation des moteurs de recherche
  • Finance: Lutte contre le blanchiment d'argent, lutte contre la fraude, analyse de la valeur client, regroupement de clients sur le marché cible, prévision de la capacité de remboursement, analyse des tendances du portefeuille d'investissement en actions
  • Télécommunications: optimisation de la conception commerciale, prédiction du churn client, optimisation de la qualité du réseau
  • Médical et soins de santé: comparaison de données cliniques, aide à la décision, analyse du comportement médical, analyse des caractéristiques de la maladie
  • Sécurité publique: analyse de prédiction des comportements suspects, détection d'activités terroristes, analyse des risques, analyse des parties liées
  • Transport intelligent: données de masse générées par l'ensemble du capteur, du GPS et de l'équipement vidéo de santé, combinées aux données sur les conditions météorologiques, aux données de répartition de la population et aux données de communication mobile provenant de l'équipement de surveillance météorologique pour réaliser des transports publics intelligents.

Les défis de la promotion

  • Quelques organisations ont un monopole absolu sur les données, et la plupart des données sont concentrées au sein de ces organisations. Tout comme les données sur les maladies rares, ce n'est que grâce à des mécanismes et des plateformes de partage que nous pouvons aider les patients.
  • Les applications de Big Data devraient être basées sur le principe du respect de la vie privée des utilisateurs, et comment équilibrer l'ouverture et l'innovation des données est un problème important auquel est confronté l'industrie du Big Data. Les entreprises utilisent le Big Data pour comprendre les caractéristiques et les besoins des utilisateurs et doivent respecter pleinement leurs droits à la vie privée.
  • L'architecture Big Data existante ne peut garantir que les données elles-mêmes ne seront pas altérées, limitant ainsi les scénarios d'application qui nécessitent confiance et confirmation. Pour des données telles que le crédit, s'il n'y a aucun moyen de garantir l'authenticité des données, il est difficile de les utiliser dans le processus décisionnel des agences concernées.

Je suppose que tu aimes

Origine blog.51cto.com/14947900/2553305
conseillé
Classement