良いプログラマは、Hadoopのビッグデータはもちろん乾貨物シェアを学習学びます

  良いプログラマはHadoopのビッグデータはもちろん、乾燥品のシェアを学習学び、ApacheのHadoopのは、信頼性の高い、スケーラブルな分散コンピューティングのオープンソースソフトウェアの開発です。
ApacheのHadoopのソフトウェアライブラリは、大規模なデータセット(大量のデータ)の処理を分散マシンのクラスタ間で簡単なプログラミングモデルの使用を可能にするフレームワークです。
これらのモジュールは、次のとおりです。

  • Hadoopの共通:他の一般的なツールのHadoopのモジュールをサポート。
  • Hadoopの分散ファイルシステム(HDFS™):アプリケーションデータへの高スループットのアクセスを提供する分散ファイルシステム。
  • HadoopのYARN:ジョブスケジューリングフレームワークおよびクラスタリソース管理。
  • HadoopのMapReduce:大規模なデータセットの並列処理システムに基づいて糸。

前記各モジュールは、それ自身の独立した機能を有しており、モジュール間に互いにが関連付けられています。

大まかに言えば、Hadoopが通常より広範な概念の--HADOOPのエコシステムを指し
HDFS、MapReduceの、糸組成物による信頼性の高い、スケーラブルな分散コンピューティング、オープンソースソフトウェア。

HDFS
Hadoopの分散ファイル・システムは、一般的にHDFS HA機構の実現に1つのまたは2つの名前ノードのプロセスといくつかのデータノード処理の組成から成り、そこZKFC処理(通常名前ノードを同じコンピュータ上で実行中のプロセスを有する)とJNの数プロセス。

ノード
プロセス名前ノード名前ノードを実行するマシンに対応し、ノードと呼ばれる名前ノードまたはデータノード処理を実行しているマシンは、マシンが物理マシンまたは仮想マシンであってもよいノードデータノードと呼ばれるデータノードマシン実行中のプロセス、ノードと呼ばれます。

MapReduceの
オフライン計算分散並列フレームは、「データ分析アプリケーションのHadoopのに基づいて、」コアフレームワークプログラミング・フレームワーク分散コンピューティング・プログラム、ユーザの開発で、MapReduceのコア機能は、ユーザ記述されたコードとビジネスロジックMR自身のデフォルトの構成要素であります完全な分散コンピューティングプログラムに統合され、Hadoopクラスタ上で同時に実行、HDFSは同様の原理と問題解決、HDFSは、クラスタ内の各ホストに格納されているいくつかの小さなファイルに変換する大規模なファイルです。同じ原理、MapReduceのは、それぞれ、サブ動作場合、複雑な操作に切断し、それぞれのホストによってクラスタ、並列動作する各ホストされています。

用語集

  • 求人:各ユーザーの要求に対して計算は、ジョブと呼ばれています。
  • タスク:各ジョブが開いて分割する必要があり、ユニットのスピンオフを完了するために、複数のホストを手渡しますが、タスクを実行することです。タスクは、タスクの以下の3種類に分けられます。
    • 全体のプロセスは、データ処理位相マップを担当します。地図
    • 削減:全体的なデータ処理の流れを担当するフェーズを減らします
    • MRAppMaster:プログラムのスケジュールと調整状態のプロセス全体に責任を
      YARN
      もう一つのリソース交渉(まあ、別のリソースコーディネーター)、ジョブスケジューリングフレームワークおよびクラスタリソース管理、のResourceManagerおよびノードマネージャ構図、のResourceManagerは、次の2つの主要コンポーネントがあります。スケジューラとApplicationsManager。

スケジューラ
おなじみの能力に応じた責任スケジューラは、様々なアプリケーションにリソースを割り当てるためのキューやその他の制約が実行されています。それは、監視や追跡アプリケーションの状態を実行していないため、スケジューラは、純粋にスケジューラです。また、アプリケーションやハードウェア障害が発生するので、それはその使命を再起動に失敗した保証することはできません。スケジューラは、アプリケーションのリソース要件に従ってそのスケジューリング機能を実行するために、それは、メモリ、CPU、ディスク、ネットワーク、および他の要素を含むリソースコンテナの抽象化に基づいています。

ApplicationsManager
ジョブ投入を受信するための責任は、交渉ApplicationMaster第一の容器は、アプリケーション固有の実行、および障害が発生した場合に再起動ApplicationMasterコンテナサービスを提供しています。スケジューラからの適切なリソースコンテナの交渉を担当する各アプリケーションApplicationMasterは、自分のステータスを追跡し、進捗状況を監視します。

飼育係
QuorumPeerMainプロセスの複数からなる分散アプリケーションのための分散コーディネーションサービスは、これらのプロセスは、本質的に同様に機能するが、プロセスの飼育係動作において、リーダーの役割として機能するプロセスは、残りのプロセスは、従動ロールとして作用します。

znode
内部飼育係は、権利、タイプ、バージョン、等、及び他の子ノードに関連するメタ情報を有する、ノードツリーのデータ構造に、すなわち、メモリ内のツリーデータ構造の一部で彼らのコンテンツを親ノードを維持しました情報。新しいノードを含む監視ノードの状態変更を担当する飼育係、削除、内容を変更し、子ノードを変更するが、飼育係は、変更後のノードの動作について責任を負いません、変更の飼育係は、ウォッチャーノードに通知し、このウォッチャを作ったことができた後、処理を担当。

HA
高可用性を実現するために、Hadoopの-HA、失敗の最も重要な単一のポイントで厳密に言えば、HAの様々な構成要素に分割されなければならない(唯一の「信頼性」があることを確認するためにsecondarynamenode)HA、すなわち、高可用性(7 * 24時間の中断のないサービスを)-called --HDFS機構HA、HAの糸。

  • HDFS HAの詳細なメカニズム:ダブル名前ノードによって単一障害点、名前ノードのコーディネーションポイントビス:
    • メタデータ管理は、変更する必要があります
    • 私たちは、状態管理モジュールが必要

おすすめ

転載: blog.51cto.com/14479068/2432970