Spark tiene que organizar

Spark es un marco de cómputo de grandes datos escrito en Scala y basado en cómputo en memoria.

Con Spark core como núcleo, proporciona varios componentes funcionales principales de Spark SQL, Spark Streaming, MLlib

Documento chino: https://spark.apachecn.org/#/

dirección de github: https://github.com/apache/spark

Spark Core

Spark proporciona una variedad de marcos de programación de recursos, basados ​​en la computación en memoria, la gestión del proceso de ejecución de DAG y la relación de sangre RDD para garantizar una computación rápida y altamente tolerante a fallas. RDD es el concepto central de Spark

Spark SQL

SparkSQL optimiza la consulta sql basada en Spark Core, convierte la consulta sql en el RDD (DateFrame) correspondiente y la optimiza, simplificando el desarrollo y mejorando la eficiencia de la limpieza de datos

Spark Streaming

SparkStreaming es un marco de procesamiento de flujo basado en SparkCore. Implementa el procesamiento de flujo (DStream) a través del concepto de micro-lote. Puede garantizar el retraso de datos de al menos 500 ms. Es un marco de procesamiento de flujo de alto rendimiento y alta tolerancia.

238 artículos originales publicados · elogiados 429 · 250,000 visitas

Supongo que te gusta

Origin blog.csdn.net/qq_45765882/article/details/105522676
Recomendado
Clasificación