Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

Configuración del entorno de desarrollo de Spark

1. Instale Spark

2. Caso de estadísticas de frecuencia de palabras

3. Configuración del entorno de desarrollo de Scala

Uno, instala Spark

1.1 Descargar y descomprimir

La dirección de descarga oficial: http://spark.apache.org/downloads.html , seleccione la versión Spark y la versión correspondiente de Hadoop antes de descargar:

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

Descomprime el paquete de instalación:

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2 Configurar variables de entorno

# vim /etc/profile

Agregue variables de entorno:

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

Haga que las variables de entorno configuradas surtan efecto de inmediato:

# source /etc/profile

1.3 Modo local

El modo local es la forma más fácil de ejecutar. Se ejecuta en un modo multiproceso de un solo nodo, sin implementación, listo para usar, adecuado para el desarrollo de pruebas diarias.

# 启动spark-shell
spark-shell --master local[2]
  • local : solo inicia un hilo de trabajo;
  • local [k] : iniciar k hilos de trabajo;
  • * local [ ] **: inicia la misma cantidad de subprocesos de trabajo que la cantidad de CPU.

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

<br/>

Después de ingresar a spark-shell, el programa ha creado automáticamente el contexto SparkContext, que equivale a ejecutar el siguiente código de Scala:

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)

2. Caso de estadísticas de frecuencia de palabras

Una vez completada la instalación, puede hacer un ejemplo simple de estadísticas de frecuencia de palabras y sentir el encanto de la chispa. Prepare una muestra de archivo de estadísticas de frecuencia de palabras wc.txt, el contenido es el siguiente:

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

Ejecute la siguiente declaración de Scala en la línea de comandos interactiva de scala:

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

El proceso de ejecución es el siguiente, puede ver que se han generado los resultados de las estadísticas de frecuencia de palabras:

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

Al mismo tiempo, puede ver la ejecución del trabajo a través de la interfaz de usuario web. El puerto de acceso es 4040:

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

Tres, configuración del entorno de desarrollo de Scala

Spark se desarrolla en base al lenguaje Scala y proporciona API basadas en Scala, Java y Python respectivamente. Si desea utilizar el lenguaje Scala para el desarrollo, necesita crear un entorno de desarrollo del lenguaje Scala.

3.1 Requisito

El funcionamiento de Scala se basa en JDK, por lo que necesita tener la versión correspondiente de JDK instalada en su máquina. La última versión de Scala 2.12.x requiere JDK 1.8+.

3.2 Instalar el complemento Scala

IDEA no admite el desarrollo del lenguaje Scala de forma predeterminada y debe ampliarse a través de complementos. Abra IDEA, haga clic en Archivo => configuración => pestaña de complementos , busque el complemento Scala (como se muestra a continuación). Después de encontrar el complemento, instálelo y reinicie IDEA para que la instalación tenga efecto.

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

3.3 Crear proyecto Scala

Haga clic en el archivo IDEA => Nuevo => pestaña Proyecto , luego seleccione Crear Scala—IDEAproyecto:

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

3.4 Descargar Scala SDK

1. Método uno

Esta vez para ver Scala SDKvacío, luego haga clic en Create=> Download, seleccione la versión que desee, haga clic en el OKbotón para descargar, la descarga está completa haga clic Finishen el proyecto.

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

2. Método dos

El primer método es el que se utiliza en la guía de instalación oficial de Scala, pero la velocidad de descarga suele ser lenta y la herramienta de línea de comandos de Scala no se proporciona directamente en esta instalación. Por lo tanto, personalmente recomiendo descargar el paquete de instalación en el sitio web oficial para la instalación. Dirección de descarga: https://www.scala-lang.org/download/

Mi sistema aquí es Windows. Después de descargar la versión msi del paquete de instalación, sigo haciendo clic en Siguiente para instalarlo. Una vez completada la instalación, las variables de entorno se configurarán automáticamente.

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

Dado que las variables de entorno se han configurado automáticamente durante la instalación, IDEA seleccionará automáticamente la versión correspondiente del SDK.
Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

3.5 Crear Hello World

En el proyecto src, haga clic con el botón derecho en el directorio Nuevo => Se crea la clase ScalaHello.scala . Ingrese el código de la siguiente manera y haga clic en el botón Ejecutar después de completarlo. Si se ejecuta correctamente, la configuración es exitosa.
Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

3.6 Cambiar versión Scala

En el desarrollo del día a día, dado que la versión de software correspondiente (por ejemplo, Spark) del cambio, puede resultar en la necesidad de cambiar la versión de Scala, puede hacerlo en Project Structuresla Global Librariespestaña de cambio.

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

3.7 Posibles problemas

Después de volver a abrir el proyecto a veces en IDEA, haga clic con el botón derecho y no aparecerá un nuevo scalaarchivo de opciones, o no aparecerá la gramática Scala al escribir, luego puede eliminar Global Librariesun SDK configurado y agregarlo nuevamente más tarde:
Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

Además, para ejecutar el proyecto Spark en modo local en IDEA no es necesario configurar los entornos Spark y Hadoop en esta máquina.

Para más productos secos, preste atención a la cuenta pública: los datos son excelentes

Escribir a la gente ocupada serie: desarrollo de la chispa de la construcción del entorno

Supongo que te gusta

Origin blog.51cto.com/14974545/2551460
Recomendado
Clasificación