Hadoopが開始されます

象はダンスができない人を言います

Hadoopのは何ですか

官网定义:ApacheのHadoopのソフトウェアライブラリは、単純なプログラミングモデルを使用しているコンピュータのクラスタ間で大規模なデータセットの分散処理を可能にするフレームワークです。

Hadoopの:分散ストレージとビッグデータのためのコンピューティングプラットフォーム

今トップレベルのApacheオープンソースプロジェクトは、Hadoopのオープンソース分散コンピューティング・プラットフォームによって開発されたJava言語ではApache Software Foundationの下にある特定のフレームまたはコンポーネントを参照しません。大量のデータを達成するために大規模なデータストレージおよび分散コンピューティング・プラットフォームに適したコンピュータ、多数の構成コンピューティングクラスタを分散します。

ここでは簡単な例です:あなたはリンゴと梨の数を知りたい、あなたはフルーツバスケットを持っていると言うことは、限り、一つ一つとして数はどのくらいを知ることができますどのくらいです。あなたは果物のコンテナを持っている場合は、この時間は、我々は、複数のプロセスやスレッドに相当しますが、カウントされ、同じ時のヘルプ、で多くの人々を必要としています。あなたは果物のコンテナの多くを行う場合、あなたは、分散コンピューティングを必要とする、それはHadoopのです。誕生Hadoopdのいわゆる意志は、主として、ビッグデータの時代に入力されたデータの量に、コンピュータが大きすぎる対処する必要があります。この場合、処理のためにN個のコンピュータに割り当てられ、これらの大量のデータをカットする必要があります。大量の情報を処理するための別のコンピュータに割り当てられている場合、情報分散処理の適切な管理の必要性について得られた最終的な結果は、Hadoopのような溶液であることを保証します。

Hadoopの原点

Hadoopのは、Googleの三本の大論文、GFS、BigTableのとMapReduceの中で始まりました。DFSとMapReduceの仕組みを実現するために、ビジネスの時間とダグ・カッティング(Hadoopのの父)などからインスピレーションを受けています。2006年2月には、Hadoopの名前の完全なスタンドアロンのソフトウェア、に分離されます。

Hadoopのの成長過程を経験した:Lucene-> Nutch-> Hadoopの

3つの論文の段階的な進化の核となるアイデア、最終:

GFS - > HDFS
GoogleのMapReduceの- > HadoopのMapReduceの
BigTableの- >のHBase

Hadoopのコアバージョンとアーキテクチャ

Apacheのオープンソースコミュニティのバージョンは、3.xのために今あります

Hadoop1.0バージョン2つのコア:HDFS +のMapReduce

Hadoop2.0バージョン、糸を導入しました。コア:HDFS +糸+のMapReduce

糸は、リソーススケジューリングフレームです。きめ細かい管理とスケジューリングタスクが可能。また、計算はまた、のような火花のような他のフレームワークをサポートすることができます。

Hadoop3.0バージョンではなく、新しいコアの導入、オリジナルのコアで、多くのことをアップグレードしてください。具体的に公式サイトを参照してください確認してください

Hadoopのアイデア

Hadoopが高い耐障害性、高い信頼性、拡張性、などで、従来の市販のサーバー上で実行することができます

追記のために特に適した、多くのシーンを読んで

適したシーン

  • 大規模データ
  • ストリーミングデータ(多くのを読んで、ライトワンス)
  • コモディティ・ハードウェア(一般にハードウェア)

適さないシーン

  • 低遅延のデータアクセス
  • 小さな多数のファイル
  • 頻繁に変更されたファイル

PS

中国語版の3つの論文のHadoop Googleの起源

GFS Googleの分散ファイル・システム・ファイル・システムGoogleの
BigTableの大規模な分散データベース
のMapReduce GoogleのオープンソースのMapReduceは、並列コンピューティングフレームワークを分散します

おすすめ

転載: www.cnblogs.com/valjeanshaw/p/11403379.html