この構成では、コマンドライン、以下の最終結果を学習するためのスパーク実行している環境で、簡単なコードを実行します。
問題0、JDK、スカラ座のバージョンとスパーク
バージョンについての公式サイト示す、私がこれまでにjdk11をサポートしていないこと火花を強調したい、のみ(jdk1.8)jdk8することをサポートします。間違ったバージョン、あなたはコードは通常のクラス、関数を報告されます実行している場合は、問題がない私は、ダウンロード版はspark2.4.3、上に示したscala2.11.12、java1.8を示します。
1、設置環境
win10 64ビットシステムでは、私は、JDK、スカラ座を設置し、環境変数JAVA_HOME、SCALA_HOME、PATHを設定しています。今、Scalaの-versionのJava -versionを入力して、対応するバージョンcmdを得ることができます。
2、火花をインストール
公式サイトからhttp://spark.apache.org/downloads.htmlアーカイブの対応するバージョンをダウンロードし、ローカルディレクトリに解凍し、環境変数を設定します。
ダウンロード:
解凍:
環境変数を設定します。
SPARK_HOMEあなたは解凍後、ディレクトリファイルパス\ binに%のSPARK_HOMEの%を追加するように設定
3、Hadoopの設定
また、圧縮されたパッケージをダウンロードし解凍、環境変数を追加します。Hadoopの対応バージョンに注意し、公式サイトダウンロードhttp://hadoop.apache.org/releases.htmlを
環境変数:
HADOOP_HOMEあなたは解凍後、ディレクトリファイルパス\ binに%のHADOOP_HOMEの%を追加するように設定します
4、試験
あなたが火花 - シェル相互作用のスパークコマンドラインで入力することができた後、簡単なコードのテスト、など:
演習1:
//通过并行化生成rdd val rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10)) //对rdd1里的每一个元素乘2然后排序 val rdd2 = rdd1.map(_ * 2).sortBy(x => x, true) //过滤出大于等于十的元素 val rdd3 = rdd2.filter(_ >= 10) //将元素以数组的方式在客户端显示 rdd3.collect
参考:
https://blog.csdn.net/songhaifengshuaige/article/details/79480491