02_spark principio de funcionamiento básico y RDD

1. El principio básico de funcionamiento de la chispa.

Distribuido
principalmente basado en la
computación iterativa de memoria

2.RDD y sus características

RDD es, de manera abstracta, una colección de elementos que contiene datos. Se divide en múltiples particiones, y cada partición se distribuye en diferentes nodos en el clúster, de modo que los datos en el RDD se pueden operar en paralelo. (Conjunto de datos distribuidos) La
característica más importante de RDD es que proporciona tolerancia a fallas y puede recuperarse automáticamente de fallas de nodo. Es decir, si la partición RDD en un nodo se pierde debido a una falla del nodo, RDD recalculará automáticamente la partición a través de su propia fuente de datos. Todo esto es transparente para los usuarios.
Los datos RDD se almacenan en la memoria de forma predeterminada, pero cuando los recursos de memoria son insuficientes, Spark escribirá automáticamente los datos RDD en el disco. (Flexibilidad)

Desarrollo 3.spark

a. Desarrollo principal: procesamiento por lotes fuera de línea / procesamiento de datos interactivo retrasado
b. Consulta SQL: la capa inferior es RDD y operaciones de cálculo
c. cálculo en tiempo real: la capa inferior es RDD y operaciones de cálculo

Supongo que te gusta

Origin www.cnblogs.com/ytq1016/p/12682423.html
Recomendado
Clasificación