Hadoop の概要

目次

1.Hadoopとは

1.1. 狭義の Hadoop:

1.2. 広い意味での Hadoop:

 1.3. Hadoop コア コンポーネント:

2.Hadoopの特徴とメリット

3. Hadoop アーキテクチャの変更点

 4.Hadoop クラスター

 HDFS クラスターと YARN クラスターは論理的に分離され、物理的に結合されています

1.Hadoopとは

1.1. 狭義の Hadoop:

狭义上Hadoop指的是Apache软件基金会的一款开源软件

​		用java语言实现,开源

​		允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理

1.2. 広い意味での Hadoop:

広義の Hadoop は、Hadoop を中心に構築されたビッグデータ エコシステムを指します。


        分散型ファイル ストレージ システムとして、HDFS はエコシステムの底部でありコアです

YARN は、分散型の汎用クラスター リソース管理システムおよびタスク スケジューリング プラットフォームとして、さまざまなコンピューティング エンジンの動作をサポートし、Hadoop の状態を保証します。

MapReduce は、ビッグデータ エコシステムにおける第 1 世代の分散コンピューティング エンジンです. 独自に設計されたモデルの欠点により、最前線の企業はプログラミングとコンピューティングに MapReduce を直接使用することはほとんどなくなりましたが、多くのソフトウェアの最下層.データを処理するために MapReduce エンジンをまだ使用しています。 

 1.3. Hadoop コア コンポーネント:

        HDFS (分散ファイル ストレージ システム): 大量のデータ ストレージを解決

YARN (クラスター リソース管理およびタスク スケジューリング フレームワーク): リソース タスク スケジューリングを解決します。

MapReduce (分散コンピューティング フレームワーク): 大規模なデータ コンピューティングの解決

#################################################### #### 

2.Hadoopの特徴とメリット

        強力な容量拡張


Hadoop は、便利で柔軟な方法で数千のノードに拡張できる利用可能なコンピューター クラスター間でデータを分散し、コンピューティング タスクを完了します。

低コスト

Hadp では、通常の安価なマシンをデプロイしてクラスターを形成することでビッグ データを処理できるため、クラスターの全体的な機能に重点を置いてコストを非常に低く抑えることができます。

高効率

同時データを通じて、Hadoop はノード間でデータを動的に並行して移動できるため、速度が非常に高速になります。

信頼性

データの複数のコピーを自動的に維持し、タスクの失敗後にコンピューティング タスクを自動的に再展開できるため、
ユーザーは Hadoop のビット単位のストレージとデータ処理機能を信頼しています。

#################################################### ####  

3. Hadoop アーキテクチャの変更点

        Hadoop1.0:

HDFS (分散ファイル ストレージ)
MapReduce (リソース管理と分散データ処理)

Hadoop2.0:

HDFS (分散ファイル ストレージ)
MapReduce (リソース管理と分散データ処理)
YARN (クラスター リソース管理、タスク スケジューリング)

Hadoop3.0:

一般的な側面:
合理化されたカーネル、クラスパスの分離、シェル スクリプトのリファクタリング

Hadoop HDFS:
EC消去コード、マルチネームノードのサポート

Hadoop MapReduce:
タスクのローカリゼーションの最適化、メモリ パラメータの自動推論

Hadoop YARN:
Timeline Service V2、キュー構成

#################################################### ####  

 4.Hadoop クラスター

Hadoop クラスターには、HDFS クラスターと YARN クラスターの 2 つのクラスターが含まれます。

        2 つのクラスタは論理的に分離されていますが、通常は物理的に一緒になっています
両方のクラスタは標準のマスター/スレーブ アーキテクチャ クラスタです

HDFS クラスター:
マスターの役割: NameNode
スレーブの役割: DataNode
マスターの役割と補助的な役割: SecondaryNameNode

YARN クラスター:
マスターの役割: ResourceManager
スレーブの役割: NodeManager

 HDFS クラスターと YARN クラスターは論理的に分離され、物理的に結合されています

論理的な分離とは、HDFS クラスターと YARN クラスターが相互に依存しないことを意味し、一方を開始するために他方を開始する必要はなく、相互に影響を与えません。
ただし、物理レベルでは、2 つのクラスターのプロセスを 1 台のマシンにデプロイできます。
MapReduce はコンピューティング フレームワークであり、コード レベルのコンポーネントであり、クラスターのようなものはありません。

おすすめ

転載: blog.csdn.net/qq_48391148/article/details/129813242