記事ディレクトリ
Spark では、cache()
両方ともpersist()
RDD を永続化するために使用されますが、使用方法と機能にいくつかの違いがあります。2 つの機能とその違いについては以下で説明します。
キャッシュ()関数
cache()
は の特殊なケースでありpersist()
、実際には、cache()
基礎となる層は と呼ばれますpersist()
。cache()
RDD のメソッドを呼び出すと、Spark はデフォルトのストレージ レベルを使用してMEMORY_ONLY
RDD を永続化します。- メソッドが呼び出されると
cache()
、RDD の計算結果はノードのメモリに保持されるため、RDD に対する後続の操作では RDD 全体を再計算する必要がありません。 - サンプルコード: