persistir puede especificar manualmente el nivel de persistencia
persistir (StorageLevel.MEMORY_ONLY)
MEMORY_ONLY_SER
MEMORY_AND_DISK
MEMORY_AND_DISK_SER
nota:
Trate de evitar el uso de nivel DISK_ONLY
Trate de evitar el uso de "_2" nivel
Observe el uso de caché y persisten cuestiones:
caché y persistir partición de unidad mínima, se ejecución perezoso, la acción del operador requerido para la ejecución del gatillo
Después de un uso de la caché RDD o persistir, se pueden asignar a una variable, la variable está directamente al lado el uso de datos persistentes
Los operadores no pueden seguir el ritmo de acción después de la caché y persistir
Cuando se ejecuta la aplicación después se borrará la finalización de los datos persistentes
control
Los datos se pueden persistió en el disco, sino que también puede reducir la dependencia entre el RDD
Cuando el linaje es muy largo y complejo cálculo, puede utilizar el puesto de control a RDD para la persistencia, cuando la aplicación está terminada
No se borran los datos de punto de control
proceso de implementación puesto de control
Después de que se active la acción cuando la aplicación tiene que realizar, trabajo terminó 3 se moverá hacia adelante desde la parte de atrás
Lo que es puesto de control de marcas RDD no tener que volver
Después de la terminación de la espalda vuelve a calcular los datos checkpoint'RDD, el resultado se escribe en el puesto de control de directorio especificado
la dependencia de corte RDD
Optimización: antes de la RDDcheckpoint, una buena idea para reducir caché