ビッグデータ | Hadoop、HDFS、HIVE、HBase、Spark の関係と違い

1、ハドゥープ

  • Hadoop は、大規模なデータ セットを保存および処理するためのオープンソースの分散コンピューティング フレームワークです。スケーラブルな分散ファイル システム (HDFS) と分散コンピューティング フレームワーク (MapReduce) を提供し、多数の安価なハードウェアで並列コンピューティングを実行できます。

2、HDFS

  • HDFS (Hadoop Distributed File System) は、Hadoop の分散ファイル システムです。大規模なデータセットをクラスターに保存および管理するために設計されています。HDFS はデータをブロックに分割し、これらのブロックをさまざまなコンピューティング ノードに複製して、フォールト トレランスと高可用性を提供します。
  • 私の知る限り、ほとんどの企業は通常、モデルに必要なデータ (csv/libsvm 形式のファイルなど) を Hive テーブルとして保存し、HDFS に保存します。

3、ハイブ

  • HIVE は、Hadoop に保存されたデータのクエリと分析のための SQL に似たクエリ言語 (HiveQL) を提供する Hadoop ベースのデータ ウェアハウス インフラストラクチャです。Hive は構造化データを Hadoop の分散ファイル システム上の HDSF にマッピングし、高レベルの抽象化を提供して、ユーザーがクエリと分析に SQL のような構文を使用できるようにします。
  • HDFS 上に構築された Hive は、本質的には HiveSQL 言語を MapReduce プログラムまたは Spark プログラムに変換するトランスレーターとみなすことができます。
  • 私の知る限り、ほとんどの企業は通常、モデルに必要なデータ (csv/libsvm 形式のファイルなど) を Hive テーブルとして保存し、HDFS に保存します。一般に、HDFS 上のデータを大規模に読み込むには、tensorflow の TFRecords が使用されます。Tensorflow は、spark DataFrame 形式のデータを TFRecords 形式のデータとして直接保存することをサポートする、spark-tensorflow-connector というソリューションを提供します 次に、TFRecord の原理、構成、TFRecords ファイルの生成方法について説明します。

4、Hベース

HBase は、Hadoop 上に構築された分散型でスケーラブルな列指向の NoSQL データベースです。大規模なデータセットへのリアルタイムの読み取りおよび書き込みアクセスを提供し、高い信頼性と高性能を特徴としています。HBase は、大規模なデータへのランダムで高速なアクセスを必要とするアプリケーションに適しています。

5、スパーク

  • Spark は、分散データ処理と分析を実行できる、高速で汎用的なビッグ データ処理エンジンです。Hadoop の MapReduce と比較して、Spark はパフォーマンスが高く、機能が豊富です。Spark は複数のプログラミング言語 (Scala、Java、Python (pyspark) など) をサポートし、データ処理、機械学習、グラフ コンピューティング用のライブラリを含む豊富な API セットを提供します。
  • 私の知る限り、ほとんどの企業は、モデル分散推論などのデータ前処理 + モデル推論の分散処理に pyspark を使用します (tensorflow と torch は分散トレーニングのみをサポートし、分散予測はサポートしません)。







参照:

  • [1] チャットGPT
  • [2] 私

おすすめ

転載: blog.csdn.net/weixin_43646592/article/details/130191099