1、Hadoopの生態プロフィール
Hadoopのは、分散型統合アーキテクチャシステムによって開発されたApacheの財団で、利用者は、効率的で信頼性の高い、高速なコンピューティングとストレージのためのクラスタのパワーを最大限に活用するために、分散例基礎となる内容で配布プログラムの開発を知らないかもしれません、テレスコピック機能
コアHadoopの糸、HDFS、MapReduceの、一般的なモジュール式アーキテクチャは、以下であります
2、HDFS
GFS Googleからの書類、および2013年10月に発表され、HDFSは、GFSのクローン版で、HDFSを検出し、ハードウェア障害に対応できる非常にフォールトトレラントシステムでのHadoopデータ・ストレージ管理システムの基礎であります
HDFSファイルの一貫性は、データアクセスをストリーミングすることによって、モデルを単純化し、大規模なデータセットを持つアプリケーションのための高スループット・アクセス・アプリケーション・データを提供し、追記型のためのメカニズムを提供する、データのブロックを何度も読み取りますフォーム、別の物理マシンのクラスタにいる間
3、MapReduceの
GoogleのMapReduceの紙に由来する、分散コンピューティングフレームワークの詳細を遮蔽する多数のデータ、演算マップに対して計算され、二つの部分に抽象化減らします
4、HBaseの(列メモリ分散データベース)
GoogleからのBigtableの論文では、HDFS、構造化されたスケーラブルで信頼性の高い、高性能列指向分散とダイナミックモードのデータベースの列指向のデータの上に構築されています
5、飼育係
分散環境、統一された名前、状態の同期、クラスタ管理、構成同期してデータ管理の問題を解決
6、HIVE
Facebookの収入は、同様のSQLクエリ言語を定義し、SQLは、上記のHadoopのMapReduceで行われるタスクに変換されます
7、水路
ログ収集ツール
8、糸分散リソース・マネージャ
次世代のMapReduceは、主にHadoopの元の乏しいスケーラビリティを解決するために、コンピューティング・フレームワークの様々な提案されたアーキテクチャは、以下をサポートしていません
ビッグデータと人工知能の概念は、どこ開発の完了まで、学びたい学ぶこと何ラインに合わせて、漠然としている学生を学びたいスカート学習ビッグデータへの参加を歓迎します:606 859 705を、ゼロ(乾燥品がたくさんあります誰にでも基本と高度な戦闘古典)シェア、我々は最も完全な大規模な国内のハイエンド本物の実用的な学習データ処理システムを知っているように。ハイブ-oozieは、ウェブ・水路-のpython-HBaseの-カフカは、Scalaの-SPARK HADOOP-11その他の関連知識を共有するために、徐々に深く続く、JavaとLinuxからのスタート!
9、火花
スパークは、より速く、より汎用性の高いデータ処理プラットフォームを提供し、Hadoopの比較、スパークは、プログラムがメモリ内で実行することができます
10、カフカ
主にアクティブな処理ストリーミングデータのために、メッセージキューを分散
11、Hadoopの擬似分散デプロイメント
Hadoopのの今、無償版の場合、すなわち3、すべての外国メーカーがありますが、
1、Apacheのオリジナル版
2、国内のユーザーのためのCDHのバージョン、選択したバージョンの大半
3、HDPバージョン
ここでは、CDHバージョンのHadoop-2.6.0-cdh5.8.2.tar.gzを選択し、環境はCentOS7.1で、JDK 1.7.0_55がより多くを必要とします
[ルート@のhadoop1〜]#useraddののののHadoop
私のシステムでは、デフォルトのJava環境が付属しています以下の通りです。
次の環境変数を追加します。
以下の許可を行います
ここではHadoopのユーザーには、様々なサービスとのHadoopの起動を管理します
ビューのサービスは事情を開始します