¿Qué es RDD?

¿Qué es RDD?

Resilient Distributed Dataset, conjunto de datos distribuidos elásticos, es la abstracción de datos más básica en Spark.
El código es una clase abstracta, que representa un elemento flexible, inmutable, particionable y que se puede calcular en paralelo.

  • La elasticidad del
            almacenamiento elástico : la memoria y el disco se cambian automáticamente.
            Elasticidad tolerante a fallas: la pérdida de datos se puede recuperar automáticamente.
            Flexibilidad de cálculo: mecanismo de reintento de error de cálculo.
            Flexibilidad de fragmentación: se puede volver a fragmentar según sea necesario.
  • Los
            datos distribuidos de diferentes particiones se almacenan en diferentes nodos.
  • El conjunto de datos
             RDD encapsula la lógica de cálculo y no almacena datos.
  • El
             RDD de abstracción de datos es una clase abstracta cuyas funciones son implementadas por sus subclases.
  • El
             RDD inmutable encapsula la lógica de cálculo, y la lógica de cálculo es inmutable. Si desea cambiar, solo puede generar un nuevo RDD y encapsular la lógica de cálculo en el nuevo RDD.
  • Computación paralela particionable
    Inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/FlatTiger/article/details/114915834
Recomendado
Clasificación