Directorio de artículos
En Spark, cache()
ambos persist()
se usan para persistir RDD, pero tienen algunas diferencias en el uso y la función. Las dos funciones y sus diferencias se explican a continuación:
función caché()
cache()
espersist()
un caso especial de , de hecho,cache()
la capa subyacente se llamapersist()
.- Al llamar
cache()
al método de RDD, Spark usará el nivel de almacenamiento predeterminadoMEMORY_ONLY
para conservar el RDD. - Una vez que
cache()
se llama al método, el resultado del cálculo del RDD se mantendrá en la memoria del nodo, de modo que las operaciones posteriores en el RDD no necesiten volver a calcular todo el RDD. - Código de muestra: