3つの弾性データセットの1.はじめに
1)コンセプト
2)長所と短所を比較
2.Spark RDDの概要と方法を作成します
1)概要
クラスタの背後に、論理的なエンティティである弾性分散データセット(データセットresilientdistributed、RDD)は、着目非常に重要なデータ分散アーキテクチャが存在する、複数のマシンのクラスタにデータ・パーティションを行いました。スパークRDDはRDDのスケジューリング順序スパーク依存性によって形成されたコアデータ構造です。スパークは、RDDの操作により、プログラムの全体を形成します。
2)の方法を作成します。
a)の方法を作成
ヴァルデータ=配列(1、2、3、4、5)
ヴァルdistData = sc.parallelize(データ)
b)第二の方法を作成します。
スカラ>ヴァルDISTFILE = sc.textFile( "data.txtを")
DISTFILE:26:<コンソール>でテキストファイルでorg.apache.spark.rdd.RDD [文字列] = data.txtをMapPartitionsRDD [10]
3.spark RDD 5つのプロパティ
4.spark RDD操作
アクション相が実際に実行されますまで、1)RDDが実行怠け者です。
2)RDD 3つの動作
A)Transfamation機能
B)アクション機能
c)の具体的な使用
5.DataFrame作成する方法と機能
1)データフレームとは何ですか
RDDと2)データフレームの比較
データセットに3)データフレームの比較
RDD変換DATAFRAME:4)方法を作成
5)方法を作成:データセットの変換データフレームを
6.DataSet作成する方法と機能
データセットの道を作成します。
7.Spark2.Xソースコード解析
Spark2.2-SRCソースパッケージをダウンロードし、アイデアをエクスポートするツールを抽出します。
比較データセット8間の変換。
1)RDD及び操作データのDataSet
2)変換動作
データフレーム/データセット转EET
パケットシーケンシング