Características de Spark RDD

  • Un grupo de particiones
            puede considerarse como la unidad básica del conjunto de datos. Para RDD, cada partición será procesada por una tarea de computación, que determina la granularidad de la computación paralela.
  • El cálculo de la función
            Spark RDD para cada partición se basa en fragmentos, y cada RDD implementará la función de cálculo para lograr este objetivo.
  • Relación de dependencia con otros RDD (linaje | linaje) El
            RDD generará un nuevo RDD cada vez que se convierta, y se formará una relación de dependencia entre los RDD, esta relación se denomina parentesco o linaje. Durante el proceso de cálculo, si se pierden los datos de una determinada partición, RDD volverá a calcular los datos de la partición de datos que faltan en función de la dependencia, en lugar de volver a calcular los datos de todas las particiones.
  • Para los RDD que almacenan pares clave-valor, hay un particionador opcional.
            Para los RDD que almacenan kv pares clave-valor, habrá un Particionador. El Particionador no solo determina el número de particiones del RDD, sino que también determina el número de particiona la salida durante la reproducción aleatoria.

  •         La filosofía de Spark es que "los datos móviles no son tan buenos como la informática móvil" para almacenar una lista de las posiciones prioritarias de cada segmento . Al programar tareas, Spark intentará asignar tareas informáticas a los nodos donde se encuentran los datos que se procesarán.

Supongo que te gusta

Origin blog.csdn.net/FlatTiger/article/details/114916492
Recomendado
Clasificación