ビッグ データ コース K21 - Spark の SparkSQL の基本構文

記事著者の電子メール: [email protected] 住所: 広東省恵州市

 ▲ この章のプログラム

⚪ 使用するマスター Spark の SparkSQL メソッド。

⚪ Spark の SparkSQL をマスターし、SQL ステートメントを通じて呼び出します。

1. SparkSQL の基本構文 - メソッドを通じて使用

1. クエリ

df.select("id","name").show();

2. 条件付きクエリ

df.select($"id",$"name").where($"name" === "bbb").show()

3. 並べ替えクエリ

orderBy/sort($"列名") 昇順に並べ替えます

orderBy/sort($"列名".desc) 降順に並べ替えます

orderBy/sort($"Column 1", $"Column 2".desc) 2 つの列で並べ替えます

df.select($"id",$"name").orderBy($"name".desc).show

df.select($"id",$"name").sort($"name".desc).show

tabx.select($"id",$"name").sort($"id",$"name".desc).show

4. グループクエリ

groupBy("列名", ...).max(列名) は最大値を検索します

groupBy("列名", ...).min(列名) は最小値を検索します

groupBy("列名", ...).avg(列名) 平均を求める

groupBy("列名", ...).sum(列名) 合計

groupBy("列名", ...).count() は数値を検索します

groupBy("列名", ...).agg は複数のメソッドを集約できます

scala>val rdd = sc.makeRDD(List((1,"a","bj",100),(2,"b","sh",80),(3,"c","gz", 50),(4,"d","bj",45)));

scala>val df = rdd.toDF("id","name","addr","score");

scala>df.groupBy("addr").count().show()

おすすめ

転載: blog.csdn.net/u013955758/article/details/132567593