免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
まずは、Hadoopのが何であるかを説明しましょう。
Hadoopのは、HDFS所謂、2つのコア・コンポーネント、HDFSのための1つを有する分散ファイル・ストレージ・システムです。
MapReduceのための二つは、それは、分散コンピューティングシステム(分散コンピューティングフレームワークオフライン)です。
上記2つの成分は、大規模なデータストレージの問題は、大規模なデータが計算された解決します。
残りの二つは、基本的にツールから誘導されます。
プログラミング言語Maperduce:
1、Jave(最も原始的な方法)
2、Hadoopのストリーミング(複数の言語をサポート)
(CおよびC ++のための)3、Hadoopのパイプ
象使いアルゴリズムが提供する:分類、クラスタリング、頻出パターンマイニング、ベクトルの類似度計算、推薦エンジン、次元削減、進化的アルゴリズム、回帰分析、等
ハイブ:データウェアハウスは、非構造化ログデータ、SQLに似た言語HQLの構造が、同一ではないを解決する大規模な統計的な問題のためのHadoopの上に構築されています。
豚:豚ラテン言語データストリームを用いてデータのMapReduceの並列処理を使用してHadoopのベースのデータフロー実行エンジン
ハイブ:それはHive2(スティンガー)は、基礎となるアルゴリズムエンジンTEZ(DGA算出フレーム)のMapReduceによって置換されています
インパラ:処理データはHDFSに直接保存することができ、かつ高速なインタラクティブなクエリのために、優れたスケーラビリティと耐障害性と、HDFS時間にデータを書き込みます。
Oozie: