1. Describa brevemente el proceso de operación de Spark:
1. Cree el entorno de ejecución de la aplicación Spark e inicie SparkContext
2. SparkContext se aplica al administrador de recursos (puede ser Standalone, Mesos, Yarm) para ejecutar los recursos del Ejecutor e inicia
StandaloneExecutorbackend
3. El ejecutor se aplica a la tarea
SparkContext 4. SparkContext distribuye la aplicación a Ejecutor
5. SparkContext está integrado en un gráfico DAG, descompone el gráfico DAG en el escenario, envía el Conjunto de tareas al Programador de tareas y, finalmente, el Programador de tareas envía la Tarea
al Ejecutor para ejecutar
6. La tarea se ejecuta en el Ejecutor y libera todos los recursos después de ejecutar
2. Describa brevemente la partición Spark:
La partición de chispas se divide en dos etapas:
En un sistema de archivos distribuido, los archivos se almacenan en bloques. Los bloques de archivos se envían a las tareas y los archivos se particionan. Después de la agrupación aleatoria, la agrupación aleatoria se envía a la siguiente tarea para el cálculo. Por defecto, cada núcleo ejecuta una tarea a la vez, una tarea por partición y una partición a la vez.
3. Describa brevemente sparkContext:
Cada aplicación Spark es una instancia de SparkContext, que puede entenderse como un SparkContext es el ciclo de vida de una aplicación de spark. Una vez que se crea el SparkContext, puede usar este SparkContext para crear RDD, acumuladores, variables de difusión y puede acceder a Spark a través del SparkContext Servicios, ejecución de tareas. El contexto de chispa establece servicios internos y establece una conexión con el entorno de ejecución de chispa.