公式の説明:
ApacheのHadoopのは、オープンソースソフトウェアの開発を分散コンピューティング、信頼性、拡張性の高い、です。ApacheのHadoopのソフトウェアライブラリは、大規模なデータセット(膨大な量のデータ)の処理の分散マシンのクラスタ間で簡単なプログラミングモデルの使用を可能にするフレームワークです。
個人的な理解:
Hadoopがあるいくつかのモジュール手段エンドHadoopのモジュールで、比較的短い!!の??そして、彼らはそれをやっていますか??
これらのHadoop手段内の一部のモジュール:
Hadoopの共通:他の一般的なツールのHadoopモジュールのサポート。
Hadoopの分散ファイルシステム(HDFS):データ・アクセスのための高スループットアプリケーションを提供する分散ファイルシステム。
HadoopのYARN:ジョブスケジューリングフレームワークおよびクラスタリソース管理。
HadoopのMapReduce:大規模なデータセットの並列処理システムに基づいて糸。
そして、彼らがやっているの?次のとおりです。
(1)は、HDFS:それは膨大な量のデータを格納できるファイルシステムです。
(2)のMapReduce:特定のアルゴリズムによって膨大な量のデータから、有用な情報を計算します。
ハイブ(3):ユーザ入力SQL文を受信するSQLステートメントインタプリタ、有用な情報が算出され、次いで、SQL文のMapReduce複雑な手順に翻訳し、MRの計算クラスタを公開します。
(4)のHBase:MySQLデータベースは、HBaseのHDFSファイルシステムデータベースをベースとされているファイルシステムのリナックス/ウィンドウに基づいています。
(5)水路:パドルの別の目的に圧送ポンプ、パドルからの水の源です。もちろん、「データ。」スモーク水路 別のファイルに一つのファイルからデータを抽出します。
(6)sqoop:ファイルHDFSファイルシステムは、Linuxファイルシステムは、ファイルにエクスポートされます。「エンドウ豆の鞘」アプリケーションと同様に、Androidのシステムやウィンドウシステム間のインポートファイルのエクスポートを実装します。
(7)ooize /アズカバン:完全なビジネス(仕事)は、それぞれの完了に複数のタスク(タスク)から構成されています。このコンポーネントは、各タスクの実行順序を調整する責任を負います。
****以下のようなコンポーネントに焦点を当てて(焦点が!!これはあなたの学校です!)****:
HDFS:分散ファイルシステム
MapReduceの:分散アプリケーション開発フレームワークを計算します
HIVE:ベースのビッグデータテクノロジー(+ファイルシステムの運用フレームワーク)ツールを倉庫SQLデータ
HBaseのは:HADOOPの大規模なデータベースを分散します
飼育係:分散コーディネーションサービス・インフラストラクチャ・コンポーネント
Mahoutのは:ベースのMapReduceの/火花/ FLINKと他のフレームワークの機械学習アルゴリズムのライブラリを分散コンピューティング
Oozie:ワークフロースケジューリングフレーム
Sqoop:データのインポートおよびエクスポートツール
水路:ログデータの取得枠
Hadoopのコアコンポーネント(!WARNING !!コアコンポーネントは、最も重要なことは、数ある!!)です。
HDFS(分散ファイルシステム)
糸(コンピューティングリソーススケジューリングシステム)
MapReduceの(分散演算プログラミング・フレームワーク)