ビッグ データ Hadoop というとき、正確には何を指しているのでしょうか?

ビッグ データに関しては、おそらく 2 つの避けられない問題があります。1つは大量のデータを保存する方法、もう 1 つは大量のデータをクエリして計算する方法です

幸いなことに、これらの問題は以前に解決されており、Hadoop は市場で最も優れたものの 1 つであり、市場で最も人気のあるビッグ データ ソフトウェアです。特徴は何ですか?

1. Hadoop の概要

Hadoop について、あなたはどのように理解していますか?

狭義のHadoop は、Apache Software Foundation によって Java 言語で実装されたオープン ソース ソフトウェアを指します。これにより、ユーザーは単純なプログラミング モデルを使用して、マシン クラスター全体にわたる大量のデータの分散コンピューティング処理を実現できます。

広い意味では、Hadoop は、下の図に示すように、Hadoop を中心に構築されたビッグ データ エコシステムを指します。Hadoop はエコシステム全体の基盤であり、ビッグ データのエコシステム全体を構築します。ここに画像の説明を挿入

2. Hadoop の 3 つのコア コンポーネント

Hadoop は主に 3 つの部分で構成されており、一般に Hadoop 三銃士として知られています。

1.Hadoop HDFS (Distributed File Storage System) は
Distributed File System の略で、本質的にはファイル システムです。データ量が大きいため、すべてのデータを「コンピュータ」に保存することは不可能です。大きなディスク? コンピュータの場合、複数の異なる「コンピュータ」に保存することができます。つまり、主に大規模なデータ ストレージの問題を解決するために、ファイルを異なるノードに分散して保存できます。これはエコシステムの最下位であり、コアの位置にあります。 。

2. Hadoop MapReduce (分散コンピューティング フレームワーク)
MapReduce は、ビッグ データ エコシステムにおける第一世代の分散コンピューティング フレームワークとして、主に大規模データのコンピューティングの問題を解決します。

従来の計算方法では、各ノードからデータを読み込み、統合計算を行うのが一般的でした。この最大の欠点は、計算が非常に遅く、動作するノードが 1 つだけであることです。MapReduce コンピューティング フレームワークは、並列コンピューティングのために各ノードに分散し、最終的に結合できます。

MapReduce は単なるコンピューティング フレームワークまたはプログラミング モデルであり、ソフトウェアの一部ではないため、導入する必要はないことに注意してください。

3. Hadoop YARN (クラスター リソース管理およびタスク スケジューリング プラットフォーム)
YARN は、分散型の汎用クラスター リソース管理システムおよびタスク スケジューリング プラットフォームです。

MapReduce タスクやその他の Spark タスクなど、ビッグ データの多くのコンピューティング タスクは、コンピューティング時に CPU、メモリ、ディスク、その他のリソースを必要とするため、複数のタスクがコンピューティングされている場合、それらのタスクにマネージャーを割り当てる必要があります。割り当て、スケジュール設定など、この管理者は YARN です。

3. Hadoopの利点

Hadoop がこれほど人気が​​ある理由は、その多くの利点と切り離すことができません。

  • スケーラビリティ
    Hadoop は、利用可能なコンピュータ クラスタ間でデータを分散し、コンピューティング タスクを完了します。これらのクラスタは、便利で柔軟な方法で数千のノードに拡張できます。
  • 低コストの
    Hadoop クラスタでは、通常の安価なマシンをクラスタに配置するだけでビッグデータを処理できるため、コストが非常に低くなります。重要なのはグループ全体の能力です。
  • 高効率
    同時データを通じて、Hadoop はノード間でデータを並行して動的に移動できるため、速度が非常に速くなります。
  • 信頼性
    では、データの複数のコピーを自動的に維持し、タスクの失敗後にコンピューティング タスクを自動的に再展開できます。したがって、データを少しずつ保存して処理する Hadoop の機能は、人々の信頼に値します。
  • オープン ソース
    Hadoop はオープン ソースであるため、コミュニティ全体が非常に活発で、多くの企業が Hadoop に基づいてビッグ データ プラットフォームを構築しています。

4. Hive と SQL Studio

Hadoop は一連のツールの総称であり、HDFS、Yarn、MapReduce の 3 つの部分で構成されており、その機能は分散ファイル ストレージ、リソース スケジューリング、およびコンピューティングです。

論理的にはこれだけでビッグデータ分析は完了します。

しかし、最初の問題は厄介です。このセットは、Yarn を使用してリソースをスケジュールし、MR 計算のために HDFS ファイルのコンテンツを読み取ることと同等です。Java コードを書きたいのですが、データを処理するのに最適なツールは何ですか? SQL!したがって、Hive は、この一連の標準プロセスの SQL 化に相当します。

Hive は、データの抽出、変換、読み込みを行う Hadoop ベースのデータ ウェアハウス ツールで、Hadoop に保存された大規模なデータを保存、クエリ、分析できるメカニズムです。

Hive の利点は、学習コストが低く、同様の SQL ステートメントによって高速な MapReduce 統計を実現できるため、専用の MapReduce アプリケーション プログラムを開発することなく簡単に MapReduce を実行できることです。Hive は、データ ウェアハウスの統計分析に非常に適しています。

現在、Hadoop をサポートする SQL ツールは多くありませんが、Hive 以外に SQL Studio もあり、最近では SQL Studio が Hadoop を完全にサポートしています。ここに画像の説明を挿入
SQL Studio は、Linux、Mac、および Windows システムをサポートするクロスプラットフォームのデータベース管理ツールです。

  1. SQL Studio について最も注目すべき点は、無料であることです。
  2. 現在、国内のデータベースは急速に発展していますが、国内のデータベースをサポートする SQL ツールは多くありません。SQL Studio は数少ない黄金のツールです。MySQL や Oracel などの主流のデータベースだけでなく、Wuhan Dameng などの国内のデータベースもサポートしています。そしてレンダ・ジンカン
  3. これは、 Web バージョンのツールであり、ワンクリックで解凍でき、インストールせずに使用でき、チームがオンラインでリアルタイムにコミュニケーションし、コードを調整するのをサポートするのに非常に便利であり、より効率的です。
  4. テスト データの自動生成機能。コードを記述する必要はもうありません。SQL Studio が自動的に数百万のテスト データを生成するため、心配と労力を節約できます。
  5. 膨大なデータ量をサポート: ミリ秒単位で数千万のデータをクエリし、Navicat よりも 3000W 高速にエクスポートし、遅れのない安定した滑らかな方法で 1W のテーブルを拡張します。

ダウンロードして、より多くの機能と利点を自分で調べることができます。

おすすめ

転載: blog.csdn.net/ylguoguo6666/article/details/130357578