ビッグデータの概念とHDFS

ビッグデータ

  • アウトライン

    •  ビッグデータは、大規模な高い成長率に適応するために、より多くの意思決定力、洞察力を持っているために、プロセスの最適化機能の新しい処理モデルで多様なデータ資産。

  • ビッグデータの問題が直面しています

    •  大量のデータを保存する方法(KB、MB、GB、TB、PB、EB、ZB)
    • どのようにノイズ低減処理データ(データを清掃する、不要なデータがリソース空間を低減するために解放される有用なデータを抽出するために、データに廃棄物を回すように)
  • 治療の選択肢

    • Hadoopのデータストレージの問題を解決するためにHDFSストレージの問題を解決するために、分散ファイル・ストレージ・システムであり、MapReduceはどのように構築プロセスに対処します
  • 何Hadoopのこと? 

    • 由来?

      •  公表さ3件の記事グーグルによると、

      1. Googleの ファイルシステム

      2. GoogleのBigtableの

      3. MapReduc Googleの Eインスピレーションを得たHadoop父ダグJava言語を使用して大規模なデータが直面する問題を解決するカッティング 

    • アウトライン
      • Hadoopの分散インフラストラクチャは、Java言語で書かれたのHadoopによる低コストは、Linux上で使用することができ、高い故障率だけでなく、高いスループットを実現し、オープンソースのApache財団、ある非常に信頼性が高いと、Hadoopのコア設計は、今度はgoogle3記事がビッグデータが直面する問題を解決し、HDFSそれぞれmapReudceとHBaseの
        • HDFS分散ファイル・ストレージ・システム
        • MapReduceの分散コンピューティングフレームワーク分散コンピューティングのJavaを実装するコードの少量しか必要
        • HBaseのベースHDFSのインラインストレージのNoSQL
    •  HDFS
      • 分散ファイルストレージの名前ノード、データノードを持つシステム、ブロック、データノードを管理する責任名前ノード、読み取りおよび書き込み要求と名前ノードの調整を受信するための責任がデータノード、創造と高速ブロックコピーを担当し、名前ノードを格納したメタデータ、データノードとブロックマッピング関係  

 

 

    •  名前ノードは、(データを記述するために使用される)メタデータを格納し、データノードの調整データノードを管理する責任があります
    •    その高速情報名前ノードを報告するために、ノードを格納したデータブロックの要求を書く名前ノード責任データノード
    •    ブロックデータの高速HDFSのデフォルトの128メガバイトは、3つのコピーがある最小、デフォルトではないです
    •    ラックストレージノードのラックは、フォールトトレランス、高スループットを向上させるために、配置されています。ストレージとコンピューティングを最適化
  •   名前ノードとSecondaryNameNodeとの関係

    Fsimageバックアップ・メタデータは、メモリにロードされます

    ログファイルが要求を読み取りおよび書き込み編集

   名前ノードのfsimageとブート時に負荷を編集し、これらの2つのファイルが薄い空気の外には表示されませんので、あなたは名前ノードをフォーマットしたいです 

   デフォルトのHDFSでのチェックポイントに到達するとき名前ノードを主導による増加の編集への動作ファイル内のユーザーは、遅く、遅くなって起動しますので、単にSecondaryNameNodeがあったとき、彼は、名前ノードのコピーです1時間または記事は100ワットに達し、時間が編集-inprogessと呼ばれるファイルにロードされた上で、この時点SecondaryNameNodeのfsimageのロードが、読み取りがある場合は、この時点では、合併や要望を書くために来る編集操作ログの順序レコードは読みや要望を書き、その後fsimageが新しいfsimageにマージします編集が、今回は編集-inprogess編集を変更されます

    • 小さな質問:なぜブロックのデフォルトのサイズは128メガバイトです 
      • 速いのHadoopの1倍のデフォルトサイズ、それは速い時間内にハードディスク64と大きくなるとhadoop2x大きさが128メートルになり、その後、時間を扱うデフォルトは最高伝送速度が100/1であります
  •  MapReduceの
      •  コンセプト:分散コンピューティングフレームワーク。並列コンピューティングを使用して、大規模なデータについて計算、物理的な記憶メカニズムデータノードの完全な使用は、(マップ)マッピング(削減)プロトコルを使用して、彼は非常にプログラマが並列プログラミングに分布されていない場合を容易に、彼のプログラムは、分散システム上で実行され、アイデアはキーマッピングのすべてのキーグループは、各チームが共有することを確実にするために、全体的な計画を減らしてマップ内のキーを配置し、使用することです
    • MapReduceは最善を分割し、征服することです。
      • 分割は、処理するためにいくつかの簡単なタスクに大規模で複雑なタスクであり、単純なタスクは、3層を含みます
      1. 元のデータと比較して大幅に低減することができます
      2. すべての並列コンピューティングタスクは、互いに干渉する
      3. 近所のコンピューティングの原則
      • コーディネーションの概要マップの計算結果に責任ルールを削減
      • 最初のすべてのリソーススケジューリングプラットフォームの糸を用いてのMapReduceを達成するために、
      • そこノードマネージャの責任MRAppMaster、中糸の最大の経営者のいずれかを持っているリソーススケジューリングプラットフォーム、などの概念、資源の全体的な配分を担当するのResourceManagerと同様に、各ノードを管理する、のResourceManagerにリソースステータスレポートを担当するノードマネージャ、タスクを計算し、実装を調整するために、コンピューティングリソースと一緒に作業を監視するアプリケーションノードマネージャ
      1. 全体的なリソースとコンピューティング・クラスタを担当するResourceManagerが全体の計画を行います
      2.  そのステータス情報を報告するためのノードマネージャの乗組員の管理ホスト上で計算し、責任
      3. このResourceManagerにリソースを適用するための責任についてMRAppMaster担当し、コンピューティングタスクを座標
      4. 実際のコンピューティングタスクを行うYarnChild
      5. コンピューティングリソースのコンテナ抽象単位

            

おすすめ

転載: www.cnblogs.com/blogs-gxData/p/11562807.html