Spark はメモリ データを読み取って RDD を作成します

ここに画像の説明を挿入


1. メモリデータからRDDを作成

Spark は Scala 言語で記述されているため、プロジェクト内にコレクション、タプル、配列などの Scala タイプのコレクション データ型が存在することがあります。現時点では、これらのコレクションを Spark のデータ型 RDD に変換できます。一般的に使用される方法は、makeRDD()との 2 つですparallelize

1、並列化

Spark では、Parallelize は SparkContext のメソッドであり、既存のコレクション (配列やリストなど) から分散 RDD (Resilient Distributed Dataset) を作成するために使用されます。この方法では、コレクション内の要素を複数のパーティションに分割し、それらのパーティションをクラスターの異なるノードに分散して並列処理します。

Spark では、分散 RDD (Resilie) を作成するためのメソッドparallelizeです。SparkContext

おすすめ

転載: blog.csdn.net/m0_47256162/article/details/132282472