ビッグデータシリーズ(1)Hadoopとは?

Hadoop

  • Hadoopはオープンソースのビッグデータフレームワークです
  • Hadoopは分散コンピューティングソリューションです
  • Hadoop = HDFS(分散ファイルシステム)+ MapReduce(分散コンピューティング)

Hadoopコア

  • HDFS分散ファイルシステム:ストレージはビッグデータテクノロジーの基盤です
  • MapReduceプログラミングモデル:分散コンピューティングにおけるビッグデータアプリケーションのソリューション

HDFS

  • 通常の数百台のマシン
  • TBまたはPBの大量のデータ
  • シンプルで便利なファイル取得

Hadoopインフラストラクチャ

HDFSの概念

  • データブロック
  • NameNode
  • データノード
データブロック

データブロックは、ファイル全体ではなく抽象ブロックであり、デフォルトの大学は64MBで、通常は128Mに設定されています。バックアップ* 3
ここに画像の説明を挿入

NameNode
  • ファイルシステムの名前空間を管理し、ファイルメタデータを保存する
  • ファイルシステムのすべてのファイルとディレクトリ、ファイルとデータブロックのマッピングを維持する
  • 各ファイルの各ブロックが配置されているデータノードの情報を記録します。
データノード
  • データブロックの保存と取得
  • 保存されたブロックのリストをNameNodeに更新します

HDFSの利点

  • 大容量ファイルストレージに適しており、TBおよびPBレベルのデータストレージをサポートし、コピー戦略を備えています。
  • 特定のフォールトトレランスと回復メカニズムを備えた安価なマシンで構築可能
  • 失われたデータアクセスのサポート、1回の書き込み、複数回の読み取りが最も効率的です

HDFSの短所

  • 大量の小さなファイルの保存には適していません
  • 送信と書き込みの組み合わせには適していません。ランダムなファイル変更はサポートされていません
  • ランダム読み取りなどの低レイテンシアクセス方式の2つの問題はサポートされていません
  • データブロックの適切なサイズとは何ですか。なぜですか。
  • NameNodeにはどのようなフォールトトレラントメカニズムがありますか?ハングした場合はどうなりますか?
元の記事を35件公開 3を獲得 3300を表示

おすすめ

転載: blog.csdn.net/qq_43430261/article/details/105529172