ニュースリアルタイム解析システムは、弾力性のあるデータセットを分散Spark2.X

3つの弾性データセットの1.はじめに

1)コンセプト

 

2)長所と短所を比較

 

 

 

2.Spark RDDの概要と方法を作成します

1)概要

クラスタの背後に、論理的なエンティティである弾性分散データセット(データセットresilientdistributed、RDD)は、着目非常に重要なデータ分散アーキテクチャが存在する、複数のマシンのクラスタにデータ・パーティションを行いました。スパークRDDはRDDのスケジューリング順序スパーク依存性によって形成されたコアデータ構造です。スパークは、RDDの操作により、プログラムの全体を形成します。

2)の方法を作成します。

a)の方法を作成

ヴァルデータ=配列(1、2、3、4、5)

ヴァルdistData = sc.parallelize(データ)

b)第二の方法を作成します。

スカラ>ヴァルDISTFILE = sc.textFile( "data.txtを")

DISTFILE:26:<コンソール>でテキストファイルでorg.apache.spark.rdd.RDD [文字列] = data.txtをMapPartitionsRDD [10]

3.spark RDD 5つのプロパティ

 

4.spark RDD操作

アクション相が実際に実行されますまで、1)RDDが実行怠け者です。

 

2)RDD 3つの動作

 

A)Transfamation機能

 

B)アクション機能

 

c)の具体的な使用

 

5.DataFrame作成する方法と機能

1)データフレームとは何ですか

 

RDDと2)データフレームの比較

 

データセットに3)データフレームの比較

 

RDD変換DATAFRAME:4)方法を作成

 

5)方法を作成:データセットの変換データフレームを

 

6.DataSet作成する方法と機能

データセットの道を作成します。

 

7.Spark2.Xソースコード解析

Spark2.2-SRCソースパッケージをダウンロードし、アイデアをエクスポートするツールを抽出します。

比較データセット8間の変換。

1)RDD及び操作データのDataSet

 

 

 

 

 

 

 

 

2)変換動作

データフレーム/データセット转EET

 

パケットシーケンシング

 

 

おすすめ

転載: www.cnblogs.com/misliu/p/11482391.html
おすすめ