¿El entorno PySpark todavía está instalado en pip?

Prólogo:
Antes de leer este artículo, es posible que haya estado usando pip install para instalar pyspark y, a veces, se producen varios errores debido a la inconsistencia de la versión instalada. Hoy tiene mucha suerte y vio este artículo , Aquí voy a hablar de la construcción del entorno de desarrollo python de Spark (nota que la premisa es que ya tienes instalado Spark, no importa si no lo tienes instalado, puedes ver el artículo anterior del blogger Construcción pseudodistribuida de Spark ), bueno , entremos hoy Tema principal:

1. Usar shell local

Esto es muy simple. Depende del archivo $ SPARK_HOME / bin / pyspark después de instalar Spark para iniciar una ventana de shell de pyspark. Esto es un poco similar a la ventana interactiva de Ipython. Generalmente se usa para pruebas. Pero Es un poco laborioso para el desarrollo.
Solo necesita la variable de entorno $ SPARK_HOME / bin que configuras en ~ / .bashrc o / etc / profile, y luego ingresa el siguiente comando para ver

pyspark

Inserte la descripción de la imagen aquí
Se puede encontrar que cuando se abre este Shell, automáticamente se crea una variable (que está marcada en el cuadro rojo). El tipo es Spark Session. De hecho, no solo esta variable sino también sc (que es SparkContext), sql (Spark.sql), etc., Es fácil ver cómo se implementa. Verifique el archivo pyspark en el directorio bin, y devolverá el contenido de la siguiente imagen

Inserte la descripción de la imagen aquí
La escritura de este script es bastante simple. Descubrimos que el núcleo para iniciar la ventana del shell pyspark es el lugar marcado en el cuadro rojo, que es el archivo llamado shell.py, y luego abrimos shell.py de acuerdo con esta ruta, Encontrado:
Inserte la descripción de la imagen aquí
Los varios lugares marcados en la figura son los códigos para crear variables comunes. Después de comprender el método de implementación, se siente menos mágico. Este es el entorno de desarrollo interactivo Python de Spark.
Hablemos sobre el entorno de desarrollo para configurar el IDE.

2. Utilice PySpark en PyCharm

  • Cuando acaba de instalar el entorno Spark y no instaló pyspark por separado, encontrará que ingresa el código en su PyCharm:
import pyspark

No aparecerá ningún nombre de módulo is'pyspark ', lo que indica que no se puede encontrar este paquete. En este momento, es posible que conozca a Baidu. Muchos de los anteriores le dirán que instale uno directamente, pero esto causará muchos problemas de dependencia. Como hemos visto anteriormente Cuando el paquete de instalación de Spark viene con su propio paquete pyspark, ¿por qué no usar este paquete directamente? El equipo de desarrollo de Spark también es muy considerado, y el paquete pyspark se ha empaquetado en este paquete de instalación y podemos usarlo directamente.
Antes de usarlo, primero debe tener ese concepto. ¿Qué hicimos cuando usamos el comando pip install para instalar automáticamente el paquete de Python?
Por lo general, instalamos un paquete de Python mediante pip install'package_name version ', después de ejecutar este comando buscará en el extremo más alejado del almacén python si debe tener este paquete, si se descargará, y luego llamará al paquete de script setup.py para instalar, el directorio de instalación en su $ PYTHON_HOME / site-packages
en el Con este concepto, creo que no será difícil entender las siguientes prácticas.
Hay dos formas de configurar:

  1. Agregue el siguiente código al programa:
import os
import sys

os.environ['SPARK_HOME'] = '/xxx/xxxx/spark'
sys.path.append('/xxxx/xxxx/spark/python')

No hace falta decir que este método es simple y grosero, y trata los síntomas pero no la causa principal
2. Este es el método del que vamos a hablar hoy.

(1) Haga clic en Ejecutar en la barra de herramientas y luego haga clic en 'Editar configuración'
Inserte la descripción de la imagen aquí
(2) Luego haga clic en el símbolo $ en el cuadro emergente para modificar las variables de tiempo de ejecución:
Inserte la descripción de la imagen aquí

(3) Agregue las dos variables PYTHONPATH y SPARK_HOME en este cuadro
Inserte la descripción de la imagen aquí
(4) Luego guarde y salga, y luego vaya a la página de edición de código, encontrará que no hay ningún error cuando ejecuta el programa, pero hay otro problema que no hay aviso, lo que requiere El contenido mencionado anteriormente,
ahora necesitamos copiar los dos directorios necesarios en $ SPARK_HOME \ python (los dos directorios marcados con el icono a continuación) en el directorio de instalación de Python / directorio de paquetes de sitio
Inserte la descripción de la imagen aquí
(5) La copia está completa Luego, vaya al directorio de paquetes del sitio de Python para ver si está copiado. El entorno de Anaconda que uso aquí es un poco diferente. Después de completar mi copia, se ve así:
Inserte la descripción de la imagen aquí
OK y finalmente reinicie PyCharm, encontrará el código Hay una función de aviso, sigue siendo muy simple.
Si tiene alguna pregunta, comente y discuta

Supongo que te gusta

Origin blog.csdn.net/qq_42359956/article/details/105764568
Recomendado
Clasificación