Spark es un marco de cómputo de grandes datos escrito en Scala y basado en cómputo en memoria.
Con Spark core como núcleo, proporciona varios componentes funcionales principales de Spark SQL, Spark Streaming, MLlib
Documento chino: https://spark.apachecn.org/#/
dirección de github: https://github.com/apache/spark
Spark Core
Spark proporciona una variedad de marcos de programación de recursos, basados en la computación en memoria, la gestión del proceso de ejecución de DAG y la relación de sangre RDD para garantizar una computación rápida y altamente tolerante a fallas. RDD es el concepto central de Spark
Spark SQL
SparkSQL optimiza la consulta sql basada en Spark Core, convierte la consulta sql en el RDD (DateFrame) correspondiente y la optimiza, simplificando el desarrollo y mejorando la eficiencia de la limpieza de datos
Spark Streaming
SparkStreaming es un marco de procesamiento de flujo basado en SparkCore. Implementa el procesamiento de flujo (DStream) a través del concepto de micro-lote. Puede garantizar el retraso de datos de al menos 500 ms. Es un marco de procesamiento de flujo de alto rendimiento y alta tolerancia.