HDFS(Hadoopの分散ファイルシステム)コンポーネントのアーキテクチャの概要

1.hadoop1.xとhadoop2.x違い

2.コンポーネント入門

アーキテクチャの概要HDFS
)名前ノード(NN)1:
  そのようなブロックリストのDataNodesなどのメタデータ・ストレージ・ファイル、およびブロックは、名前、ディレクトリ構造、ファイル属性(発生時刻、部数、ファイルのアクセス権を)ファイル、および各ファイル等があります。
2)DataNodes(DN):
  ローカルファイルシステムストアがデータブロックをファイル、及びブロックデータとパリティ。
3)SecondaryNameNode(2NN):
  デーモン補助HDFSの状態を監視するため、DHFS取得間隔メタデータスナップショット。

YARNアーキテクチャの概要

1)のResourceManager(RM):
  クライアント要求
  ノードマネージャを監視するための
  開始又はApplicationMaster監視
  リソースの割り当てとスケジューリング
2)ノードマネージャ(NM):
  単一のノード上のリソースを管理する
  プロセスのResourceMangerからのコマンド
  処理はのApplicationMasterからのコマンド
3)ApplicationMaster(AM ):
  データポイントを担う切断
  内部のタスクに割り当てられたアプリケーションおよびリソースに適用
  監視およびフォールト・トレラント・タスク
コンテナ)4:
  容器は、メモリ、CPUとして、ノード上の多次元リソースをカプセル化する糸リソースの抽象化です、ディスク、ネットワークなど

アーキテクチャの概要のMapReduce
MapReduceの算出された2段階のプロセスマップと減らす
  。1)データの並列処理の入力段の地図
  2)地図のステージ要約を減らし

3.ビッグデータ技術エコシステム

 

次のように専門用語に関係図が説明されている:
1)Sqoop:Sqoopは、データを送信するために主にHadoopの、ハイブと従来のデータベース(MySQLの)との間で使用されるオープンソースツールは、リレーショナルデータベース(例えばすることができています: MySQLの、オラクルなどの案内データ)がHDFSにHadoopのですが、HDFSは、リレーショナルデータベースにつながるデータを入力することも可能です。
2)水路は:水路Clouderaの高可用性、信頼性の高い、分散大規模なログ収集、集約及び伝送システムに提供され、水路のすべてのタイプのデータを収集するためのカスタムデータ送信側ログシステムをサポートし、一方、水路は、単純なデータ処理、および様々な受信者(カスタマイズ)機能に書き込まれたデータを提供します。
3)カフカ:カフカは、ハイスループット分散型パブリッシュ・サブスクライブ・メッセージング・システムであり、以下の特徴を有する:
(1)Oによるメッセージ(1)ディスクのデータ構造の永続性を提供し、このような構成であってもためのTBの数メッセージの保存安定性が長く維持することができます。
(2)ハイスループット:さえ非常に普通のハードウェアカフカは秒あたりのメッセージの数百万人をサポートすることができます。
(3)カフカによってパーティションメッセージングサーバーへの支援とマシンクラスタの消費。
(4)Hadoopの並列データローディングをサポートします。
4)嵐:「連続的なコンピューティング」、連続的なクエリを作成するデータフローの嵐が、結果は計算におけるストリームでユーザに出力されます。
5)スパーク:スパークは、最も人気のあるオープンソースのビッグデータ・メモリ・コンピューティングフレームワークです。これは、大規模なデータストレージのHadoopに基づいて計算することができます。
6)Oozie:Oozieは、ジョブ管理Hdoop(ジョブ)派遣ワークフロー管理システムです。
7)のHBase:HBaseのは、分散型、列指向オープンソースデータベースです。HBaseのは、リレーショナル・データベースとは異なり、それは、非構造化データストアのデータベースに適合されます。
8)ハイブ:ハイブは、Hadoopのデータウェアハウスのツールに基づいており、あなたはMapReduceのタスクを実行するためのSQL文を変換することができ、データベーステーブルにデータファイルの構造をマップし、単純なSQLクエリ機能を提供することができます。利点は、データウェアハウスは、統計分析のために非常に適している、あなたはすぐに特化したMapReduceアプリケーションを開発することなく、SQL文の種類によって、単純なMapReduceの統計を達成することができ、学習の低コストです。
10)R言語:Rは統計解析、マッピング言語及びオペレーティング環境に使用されます。Rは、フリーGNUシステム、フリー、オープンソースソフトウェアの一部であり、それは統計計算とのための統計的マッピングのための優れたツールです。
11)Mahoutの:ApacheのMahoutのスケーラブルな機械学習とデータマイニングライブラリです。
12)のZooKeeperは:飼育係Googleのチャビーは、オープンソース実装です。これは、大規模な分散システムのための信頼できると調和システムであり、利用可能な機能が含まれます:コンフィギュレーション・メンテナンス、ネームサービス、分散同期、グループ・サービスを。ZooKeeperの目標は、より良い、複雑なエラーが発生しやすい重要なサービス、ユーザーにシステムのインタフェースで効率的なパフォーマンス、機能性と安定性を使用して簡単にカプセル化することです。

4.推奨システムアーキテクチャプロジェクト

おすすめ

転載: www.cnblogs.com/linyouyi/p/11456685.html
おすすめ