Resistencia de Sanko

cache

  • caché (=) persistirá () = persistir (StroageLevel.MEMROY_ONLY)

persistir puede especificar manualmente el nivel de persistencia

  • persistir (StorageLevel.MEMORY_ONLY)
  • MEMORY_ONLY_SER
  • MEMORY_AND_DISK
  • MEMORY_AND_DISK_SER
    • nota:
      • Trate de evitar el uso de nivel DISK_ONLY
      • Trate de evitar el uso de "_2" nivel

Observe el uso de caché y persisten cuestiones:

  • caché y persistir partición de unidad mínima, se ejecución perezoso, la acción del operador requerido para la ejecución del gatillo
  • Después de un uso de la caché RDD o persistir, se pueden asignar a una variable, la variable está directamente al lado el uso de datos persistentes
  • Los operadores no pueden seguir el ritmo de acción después de la caché y persistir
  • Cuando se ejecuta la aplicación después se borrará la finalización de los datos persistentes

control

  • Los datos se pueden persistió en el disco, sino que también puede reducir la dependencia entre el RDD
  • Cuando el linaje es muy largo y complejo cálculo, puede utilizar el puesto de control a RDD para la persistencia, cuando la aplicación está terminada
  • No se borran los datos de punto de control
    • proceso de implementación puesto de control
      • Después de que se active la acción cuando la aplicación tiene que realizar, trabajo terminó 3 se moverá hacia adelante desde la parte de atrás
      • Lo que es puesto de control de marcas RDD no tener que volver
      • Después de la terminación de la espalda vuelve a calcular los datos checkpoint'RDD, el resultado se escribe en el puesto de control de directorio especificado
      • la dependencia de corte RDD
      • Optimización: antes de la RDDcheckpoint, una buena idea para reducir caché
Publicado 39 artículos originales · alabanza ganado 13 · vistas 2301

Supongo que te gusta

Origin blog.csdn.net/qq_43205282/article/details/103987005
Recomendado
Clasificación