¿Qué es RDD?
Resilient Distributed Dataset, conjunto de datos distribuidos elásticos, es la abstracción de datos más básica en Spark.
El código es una clase abstracta, que representa un elemento flexible, inmutable, particionable y que se puede calcular en paralelo.
- La elasticidad del
almacenamiento elástico : la memoria y el disco se cambian automáticamente.
Elasticidad tolerante a fallas: la pérdida de datos se puede recuperar automáticamente.
Flexibilidad de cálculo: mecanismo de reintento de error de cálculo.
Flexibilidad de fragmentación: se puede volver a fragmentar según sea necesario. - Los
datos distribuidos de diferentes particiones se almacenan en diferentes nodos. - El conjunto de datos
RDD encapsula la lógica de cálculo y no almacena datos. - El
RDD de abstracción de datos es una clase abstracta cuyas funciones son implementadas por sus subclases. - El
RDD inmutable encapsula la lógica de cálculo, y la lógica de cálculo es inmutable. Si desea cambiar, solo puede generar un nuevo RDD y encapsular la lógica de cálculo en el nuevo RDD. - Computación paralela particionable