Configuración del entorno de desarrollo de Spark
1. Instale Spark
2. Caso de estadísticas de frecuencia de palabras
3. Configuración del entorno de desarrollo de Scala
Uno, instala Spark
1.1 Descargar y descomprimir
La dirección de descarga oficial: http://spark.apache.org/downloads.html , seleccione la versión Spark y la versión correspondiente de Hadoop antes de descargar:
Descomprime el paquete de instalación:
# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
1.2 Configurar variables de entorno
# vim /etc/profile
Agregue variables de entorno:
export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
Haga que las variables de entorno configuradas surtan efecto de inmediato:
# source /etc/profile
1.3 Modo local
El modo local es la forma más fácil de ejecutar. Se ejecuta en un modo multiproceso de un solo nodo, sin implementación, listo para usar, adecuado para el desarrollo de pruebas diarias.
# 启动spark-shell
spark-shell --master local[2]
- local : solo inicia un hilo de trabajo;
- local [k] : iniciar k hilos de trabajo;
- * local [ ] **: inicia la misma cantidad de subprocesos de trabajo que la cantidad de CPU.
<br/>
Después de ingresar a spark-shell, el programa ha creado automáticamente el contexto SparkContext
, que equivale a ejecutar el siguiente código de Scala:
val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)
2. Caso de estadísticas de frecuencia de palabras
Una vez completada la instalación, puede hacer un ejemplo simple de estadísticas de frecuencia de palabras y sentir el encanto de la chispa. Prepare una muestra de archivo de estadísticas de frecuencia de palabras wc.txt
, el contenido es el siguiente:
hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop
Ejecute la siguiente declaración de Scala en la línea de comandos interactiva de scala:
val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect
El proceso de ejecución es el siguiente, puede ver que se han generado los resultados de las estadísticas de frecuencia de palabras:
Al mismo tiempo, puede ver la ejecución del trabajo a través de la interfaz de usuario web. El puerto de acceso es 4040
:
Tres, configuración del entorno de desarrollo de Scala
Spark se desarrolla en base al lenguaje Scala y proporciona API basadas en Scala, Java y Python respectivamente. Si desea utilizar el lenguaje Scala para el desarrollo, necesita crear un entorno de desarrollo del lenguaje Scala.
3.1 Requisito
El funcionamiento de Scala se basa en JDK, por lo que necesita tener la versión correspondiente de JDK instalada en su máquina. La última versión de Scala 2.12.x requiere JDK 1.8+.
3.2 Instalar el complemento Scala
IDEA no admite el desarrollo del lenguaje Scala de forma predeterminada y debe ampliarse a través de complementos. Abra IDEA, haga clic en Archivo => configuración => pestaña de complementos , busque el complemento Scala (como se muestra a continuación). Después de encontrar el complemento, instálelo y reinicie IDEA para que la instalación tenga efecto.
3.3 Crear proyecto Scala
Haga clic en el archivo IDEA => Nuevo => pestaña Proyecto , luego seleccione Crear Scala—IDEA
proyecto:
3.4 Descargar Scala SDK
1. Método uno
Esta vez para ver Scala SDK
vacío, luego haga clic en Create
=> Download
, seleccione la versión que desee, haga clic en el OK
botón para descargar, la descarga está completa haga clic Finish
en el proyecto.
2. Método dos
El primer método es el que se utiliza en la guía de instalación oficial de Scala, pero la velocidad de descarga suele ser lenta y la herramienta de línea de comandos de Scala no se proporciona directamente en esta instalación. Por lo tanto, personalmente recomiendo descargar el paquete de instalación en el sitio web oficial para la instalación. Dirección de descarga: https://www.scala-lang.org/download/
Mi sistema aquí es Windows. Después de descargar la versión msi del paquete de instalación, sigo haciendo clic en Siguiente para instalarlo. Una vez completada la instalación, las variables de entorno se configurarán automáticamente.
Dado que las variables de entorno se han configurado automáticamente durante la instalación, IDEA seleccionará automáticamente la versión correspondiente del SDK.
3.5 Crear Hello World
En el proyecto src
, haga clic con el botón derecho en el directorio Nuevo => Se crea la clase ScalaHello.scala
. Ingrese el código de la siguiente manera y haga clic en el botón Ejecutar después de completarlo. Si se ejecuta correctamente, la configuración es exitosa.
3.6 Cambiar versión Scala
En el desarrollo del día a día, dado que la versión de software correspondiente (por ejemplo, Spark) del cambio, puede resultar en la necesidad de cambiar la versión de Scala, puede hacerlo en Project Structures
la Global Libraries
pestaña de cambio.
3.7 Posibles problemas
Después de volver a abrir el proyecto a veces en IDEA, haga clic con el botón derecho y no aparecerá un nuevo scala
archivo de opciones, o no aparecerá la gramática Scala al escribir, luego puede eliminar Global Libraries
un SDK configurado y agregarlo nuevamente más tarde:
Además, para ejecutar el proyecto Spark en modo local en IDEA no es necesario configurar los entornos Spark y Hadoop en esta máquina.
Para más productos secos, preste atención a la cuenta pública: los datos son excelentes