学習のHadoopとスパークのオープン道路

Hadoopの

Hadoopの分散システム基盤を開発するApacheの財団です。
ユーザーは、分散アプリケーションの開発の基礎となる詳細を知らなくても分散することができます。高速コンピューティングとストレージのクラスタのパワーをフルに活用してください。
HadoopのHDFSは言及、分散ファイルシステム(Hadoopの分散ファイルシステム)を実装しています。HDFSフォールトトレラント特性、及び低い(低コスト)ハードウェア上に展開されるように設計され、それは大規模なデータを有するもの(大きなデータセットに対して、アプリケーションデータにアクセスするためのハイスループット(高スループット)を提供)アプリケーションを設定します。HDFSリラックスした要件は、POSIXを(リラックス)、およびストリームの形式のデータ(ストリーミングアクセス)ファイルシステムにアクセスすることができます。
Hadoopのフレームワークのコア設計は、次のとおりです。HDFSとMapReduceの。MapReduceの質量提供されたデータを計算しながら、HDFSは、大量のデータのストレージを提供します。

主な利点をHadoopの:

Hadoopのは、ユーザーが容易と分散コンピューティング・プラットフォームを使用することを可能にするフレームワークです。ユーザーが簡単にHadoopで大量のデータを扱うアプリケーションを開発し、実行することができます。:これは、主に次のような利点がある
高い信頼性を。Hadoopのバイビットのメモリ容量と信頼に値するデータの処理。
高い拡張性。Hadoopのに利用可能なコンピュータデータクラスタとの完全なコンピューティングタスクに配分され、これらのクラスタを容易ノードの数千に拡張することができます。
効率性。Hadoopの動的ノード間でデータを移動させることが可能であり、各ノードは、動的バランスを確保するために、このようにして処理速度が非常に高速です。
高い耐障害性。Hadoopが自動的にデータの複数のコピーを保存することができ、かつ自動的にタスクが失敗します再割り当てすることができます。
低コスト。一台のマシン、商用データウェアハウスとQlikViewを、Yonghong Z-Suiteと他のデータマートと比較すると、Hadoopのは、プロジェクトのソフトウェアのコストは、したがって、大幅に削減されます、オープンソースです。

スパーク

Apacheのスパークは、高速汎用コンピューティングエンジンのために設計された大規模なデータ処理のために設計されています。しかしのMapReduce異なり--Job中間出力はHDFSを読み書きする必要がなくなり、メモリに格納され、従ってより良好スパークすることができるされ、スパークはHadoopのMapReduceのスパークが利点を有する有し、並列フレームクラスのHadoopのMapReduceに共通でありますMapReduceのアルゴリズムは、データマイニングに適用されると機械学習は、反復を必要とします。
スパークは、オープンソースのHadoopクラスタ・コンピューティング環境でのものに似ていますが、両者の間にいくつかの違いが残っている、特定のワークロードのパフォーマンスがスパーク間のこれらの有益な違いは、Sparkを有効にするために、他の言葉で、優れていましたメモリ分散型データセットは、インタラクティブクエリを提供することに加えて、それはまた、反復ワークロードを最適化することができます。
スパークは、それは、そのアプリケーションフレームワークとしてのScala、Scalaの言語で実装されています。そして、異なるHadoopのは、スパークとScalaはしっかりとScalaは、分散データ・セットを操作するように簡単にオブジェクトのローカルコレクションとして動作することができる、統合することができます。
スパークは、分散データ・セット上の反復の仕事をサポートするために作成されますが、実際にはHadoopのを補完するが、それはHadoopのファイルシステム上で並列に実行することができます。この動作はMesos年代と呼ばれるサードパーティのクラスタリング・フレームワークによりサポートすることができます。

スパークは、3つの主要な機能を備えています。

まず、高レベルAPIは、クラスタ自体についての懸念を剥奪、スパークアプリケーション開発者は、アプリケーションが自分自身を行うコンピューティングに焦点を当てることができます。
第二に、対話型のコンピューティングと複雑なアルゴリズムをサポートするために迅速にスパーク。
最後に、スパークは、汎用エンジンである、SQLクエリ、テキスト処理、機械学習など、さまざまな操作を、達成するために使用され、スパークの前に登場することができ、我々は一般的に、それぞれ、エンジンのこれらの種類に対処することを学ぶ必要があります、必要があります。

おすすめ

転載: www.cnblogs.com/lph970417/p/11423691.html