ビッグデータエコシステム--Hadoop

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/qq_39530692/article/details/85008127

まずは、Hadoopのが何であるかを説明しましょう。

 

 

Hadoopのは、HDFS所謂、2つのコア・コンポーネント、HDFSのための1つを有する分散ファイル・ストレージ・システムです。

MapReduceのための二つは、それは、分散コンピューティングシステム(分散コンピューティングフレームワークオフライン)です。

上記2つの成分は、大規模なデータストレージの問題は、大規模なデータが計算された解決します。

残りの二つは、基本的にツールから誘導されます。

プログラミング言語Maperduce:

1、Jave(最も原始的な方法)

2、Hadoopのストリーミング(複数の言語をサポート)

(CおよびC ++のための)3、Hadoopのパイプ

象使いアルゴリズムが提供する:分類、クラスタリング、頻出パターンマイニング、ベクトルの類似度計算、推薦エンジン、次元削減、進化的アルゴリズム、回帰分析、等

ハイブ:データウェアハウスは、非構造化ログデータ、SQLに似た言語HQLの構造が、同一ではないを解決する大規模な統計的な問題のためのHadoopの上に構築されています。

豚:豚ラテン言語データストリームを用いてデータのMapReduceの並列処理を使用してHadoopのベースのデータフロー実行エンジン

ハイブ:それはHive2(スティンガー)は、基礎となるアルゴリズムエンジンTEZ(DGA算出フレーム)のMapReduceによって置換されています

インパラ:処理データはHDFSに直接保存することができ、かつ高速なインタラクティブなクエリのために、優れたスケーラビリティと耐障害性と、HDFS時間にデータを書き込みます。

Oozie:

おすすめ

転載: blog.csdn.net/qq_39530692/article/details/85008127