ビッグデータ-SparkのインストールとデプロイおよびPython環境の構成

複数のサーバー、実験環境を構成する必要があります:マスターとデータの2つのサーバー、hadoopがインストールされています、前の記事を参照してください!

1.sparkのインストール

  • マスターインストール

(1)scalaとsparkをダウンロードする

(2)環境変数を解凍して構成します

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

(3)spark-env.shファイルを構成します

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

(4)スレーブファイルを設定します

data
  • データのインストール

(1)scalaとsparkをダウンロードする

(2)環境変数を解凍して構成します

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

(3)spark-env.shファイルを構成します

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

起動してテストします。

開始するsbinディレクトリを入力します:start-all.shまたはstart-master.sh、start-slaves.sh、jpsを入力します:

マスター表示:データ表示:

次に、pysparkを開始します。

pyspark 

正常にアクセスして、モードを変更できます。

pyspark --master spark://master_ip:7077

2. Anacondaを構成し、Jupyterにリモートアクセスします

(1)Anacondaをインストールします

インストール:

環境変数を構成します。

(2)Jupyterのリモート構成

参照:https//blog.csdn.net/MuziZZ/article/details/101703604

(3)pysparkとpythonの組み合わせ

export PATH=$PATH:/root/anaconda3/bin
export ANACONDA_PATH=/root/anaconda3
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/jupyter-notebook
#PARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python

アクセスインターフェース:

おすすめ

転載: blog.csdn.net/qq_28409193/article/details/113346624