Explicación detallada de la diferencia entre las funciones de caché y persistente en Spark

inserte la descripción de la imagen aquí

En Spark, cache()ambos persist()se usan para persistir RDD, pero tienen algunas diferencias en el uso y la función. Las dos funciones y sus diferencias se explican a continuación:

inserte la descripción de la imagen aquí

función caché()

  • cache()es persist()un caso especial de , de hecho, cache()la capa subyacente se llama persist().
  • Al llamar cache()al método de RDD, Spark usará el nivel de almacenamiento predeterminado MEMORY_ONLYpara conservar el RDD.
  • Una vez que cache()se llama al método, el resultado del cálculo del RDD se mantendrá en la memoria del nodo, de modo que las operaciones posteriores en el RDD no necesiten volver a calcular todo el RDD.
  • Código de muestra:

Supongo que te gusta

Origin blog.csdn.net/m0_47256162/article/details/132377355
Recomendado
Clasificación