SparkSQL データベースの操作とコードの練習

著者: 禅とコンピュータープログラミングの芸術

1 はじめに

1. この記事について

SparkSQL は、Apache Spark プロジェクトで構造化データを処理するためのオープン ソース モジュールです。リレーショナル データベース内のデータを、さまざまな分析クエリに便利な DataFrame オブジェクトに変換できる、シンプルで使いやすい API を提供します。実際の本番環境では、ETL、機械学習、データウェアハウス構築などのシナリオでSparkSQLが広く利用されています。この記事では、2 つの側面からデータベースを操作する SparkSQL について紹介します。最初のセクションでは SparkSQL 関連の概念と機能を紹介し、2 番目のセクションでは主に、SparkSQL を介してリレーショナル データベースからのデータの読み取り、データの書き込み、テーブルの作成、テーブルの削除を行う方法を紹介します。3 番目のセクションでは、SparkSession オブジェクトの作成、リレーショナル データベースからのデータの読み取りと表示、テーブルの作成、テーブルへのデータの挿入、データの更新、データの削除、テーブル データのクエリ、およびテーブルの削除を含む、コードの練習プロセスを示します。最後に、著者の個人情報、謝辞、参考文献を記載します。

2.SparkSQLの概要

1.SparkSQLの概要

Spark SQL は、構造化データを処理するための Apache Spark プラットフォーム上のモジュールであり、使いやすく高効率な API を提供します。Spark SQL に基づいて、ユーザーは Hadoop 分散ファイル システム (HDFS)、Hive データ ウェアハウス、または Apache Cassandra などの外部データ ソースに保存されている大量のデータを迅速に分析できます。Spark SQL は SQL、Java、Python、Scala、R およびその他の言語インターフェイスをサポートしているため、ユーザーは使い慣れたコマンド ライン ツールやグラフィカル インターフェイスを使用してデータをクエリしたり、データ分析用のプログラム インターフェイスを作成したりできます。Spark SQL の内部実行エンジンは、従来のカラムストレージベースのデータストレージ方式を採用しており、Hive Metastore の外部メタデータもサポートしています。Spark SQL は、さまざまなニーズを満たすバッチ処理、ストリーム処理、およびハイブリッド コンピューティング フレームワークもサポートしています。Spark SQL は DataFrame を中心にしています。DataFrame は分散型データセットです。

おすすめ

転載: blog.csdn.net/universsky2015/article/details/132798321