SparkSQLの概要第1章

Spark SQL
Spark SQLの公式紹介
●公式Webサイト
http://spark.apache.org/sql/
Spark SQLはSparkによって使用されます構造化データの処理モジュール。
また、Spark SQLには、やなどDataFrames API複数の使用方法がありDatasets APIます。
1. SparkSQLとは何ですか?
構造化データを処理するためのSparkモジュール。
データはDataFrameとDataSetを介して処理できます。
2. SparkSQLの機能
1. 易整合
java、scala、python、Rなどの言語のAPI操作を使用できます。
2. 统一的数据访问
データソースに接続する同じ方法。
3、兼容Hive
4、标准的数据连接(JDBC/ODBC)
3、SQLの長所と短所
長所:表达非常清晰,难度低、易学习。
短所:复杂的业务需要复杂的SQL, 复杂分析,SQL嵌套较多。机器学习较难实现
4、ハイブとSparkSQL
ハイブは、SQLのMapReduceに変換され
SparkSQLは、実行+最適化「RDD」に解決SQLとして理解することができ
ここに画像の説明を挿入
、抽象SparkSQL 2 5を
何RDDを?
弾性分散データセット。
ここに画像の説明を挿入
DataFrameとは何ですか?
DataFrame是一种以RDD为基础的带有Schema元信息的分布式数据集、従来のデータベースの2次元テーブルに似ています。
ここに画像の説明を挿入
何DataSaet ??である
データフレームタイプ情報を含有するデータセットである
(DataSaet = DATAFRAME +型=スキーマ+ RDD * N +型)
DataSet包含了DataFrame機能
ここに画像の説明を挿入
区別RDD、データフレーム、データセット
構造図。
ここに画像の説明を挿入
RDD [Person]
以Person为类型参数、しかしその内部構造を理解していません。
DataFrame
提供了详细的结构信息schema列的名称和类型これはテーブル
DataSet [Person]のように見えます
不光有schema信息,还有类型信息

元の記事を238件公開 賞賛された429件 ビュー250,000件

おすすめ

転載: blog.csdn.net/qq_45765882/article/details/105560112