Spark のキャッシュ関数と永続関数の違いの詳細な説明

ここに画像の説明を挿入

Spark では、cache()両方ともpersist()RDD を永続化するために使用されますが、使用方法と機能にいくつかの違いがあります。2 つの機能とその違いについては以下で説明します。

ここに画像の説明を挿入

キャッシュ()関数

  • cache()は の特殊なケースでありpersist()、実際には、cache()基礎となる層は と呼ばれますpersist()
  • cache()RDD のメソッドを呼び出すと、Spark はデフォルトのストレージ レベルを使用してMEMORY_ONLYRDD を永続化します。
  • メソッドが呼び出されるとcache()、RDD の計算結果はノードのメモリに保持されるため、RDD に対する後続の操作では RDD 全体を再計算する必要がありません。
  • サンプルコード:

おすすめ

転載: blog.csdn.net/m0_47256162/article/details/132377355