Spark 2.2 は Java 環境で実行する必要がありますが、利用可能なバージョンはありますか? 必ずしも。Spark の公式 Web サイトで実行環境が jdk8+ であると見たので、jdk9 をインストールしましたが、JDK 9 環境ではインストールが成功しませんでした。spark の ./bin/spark-shell を実行すると、特定の設定値が欠落していると報告されます ( JDK のバージョンの問題であると推定されます)。このインストールでは jdk 8 が選択され、インストール後は正常に動作しました。以下は、比較的単純なインストール プロセスの簡単な記録です。
1. Jdk をダウンロードします (http://www.oracle.com/technetwork/java/javase/downloads/index.html)。ダウンロードする JDK 8 を選択します。
2. JDK 8をインストールします。rpm -ivh jdk-8u151-linux-x64.rpm
3. JAVA_HOME を設定し、/etc/profile の末尾に次の 2 行を追加します。
export JAVA_HOME=/usr/java/jdk1.8.0_151
export PATH=$PATH:$JAVA_HOME/bin
実際にインストールしたディレクトリに応じて Java ホームを設定します。
4. Sparkをダウンロードします。http://spark.apache.org/downloads.html
バージョン 2.2.0 を選択し、デフォルトのパッケージ タイプとして「Apache Hadoop 2.7 以降用に事前構築済み」を選択します。
5. インストールするディレクトリにコピーし、解凍します。
tar zxvf スパーク-2.2.0-bin-hadoop2.7.tgz
6. スパークを実行する
./sbin/start-master.sh
ログのログにエラーがないか確認してください
7. スパークシェルを実行する
./bin/spark-shell
エラーがなければ、インストールは成功です。
さらに、Python を使用している場合は、Python をインストールしてから ./bin/pyspark を実行できます。無事にPython 3.6.3にインストールできました。以下は Python 3.6 をインストールするための簡単な操作です。
8. Python 3.6をダウンロードする
https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tar.xz
9. xz 解凍ツールをインストールする
yumインストールxz
10. インストールパッケージを解凍します。
xz -d Python-3.6.3.tar.xz
tar xvf Python-3.6.3.tar
11. コンパイルとインストールについては、Brother Buwei のブログ http://www.cnblogs.com/cloud-80808174-sea/p/6902934.html を参照してください。
なお、Python 2.7はSpark 2.10以降サポートされなくなったため、Python 3.6.3をインストールした後は3.6.3をデフォルトに設定する必要があり、その変更方法はBrother Not Afraidのブログに書かれています。