スパークシリーズ(2) - 構築するためのスパーク開発環境

まず、スパークをインストール

1.1のダウンロードと解凍

公式ダウンロード:http://spark.apache.org/downloads.html、選択スパークバージョンと、その後のHadoopの対応するバージョンをダウンロードしてください:

https://github.com/heibaiying

インストールパッケージを抽出します:

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2設定環境変数

# vim /etc/profile

環境変数を追加します。

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

それはすぐに反映するために、環境変数の設定を行います

# source /etc/profile

1.3ローカルモード

ローカルモードは、毎日のテスト開発に適した箱の外に、展開しない、単一ノードのマルチスレッド実行を使用する操作の最も簡単なモードです。

# 启动spark-shell
spark-shell --master local[2]
  • ローカル:唯一のワーカースレッドを起動します。
  • ローカル[K]:k個の開始ワーカースレッド。
  • * ローカル[ ] **:CPUの数が同じでワーカースレッドの数を開始します。

https://github.com/heibaiying

スパークシェルを入力した後、プログラムが自動的にコンテキストを作成してSparkContext、それは次のScalaのコードを実行することと等価です。

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)

第二に、単語頻度統計ケース

インストールが完了したら、あなたは単語頻度統計の簡単な例を行うことができ、スパークの魅力を感じています。サンプルのドキュメントの単語頻度統計を用意しwc.txt、以下のように、:

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

スカラスカラ対話型コマンドラインで次の文を実行します。

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

次のように実装プロセスは、我々は結果の出力周波数の統計情報を見ることができます:

https://github.com/heibaiying

同時に、あなたは、Web、アクセスポートを介してUIジョブの実装を見ることができます4040

https://github.com/heibaiying

三、Scalaの開発環境の設定

スパークは、Scalaの言語発達に基づいており、あなたはScalaの言語発達を使用したい場合は、我々はScalaの言語の開発環境を構築する必要があり、スカラ座、ジャワ、Python言語のAPIに基づいて提供されています。

3.1 前置条件

ScalaはあなたがマシンがJDKの対応するバージョンを持ってインストールする必要がありますので、最新のScalaの2.12.xが1.8+ JDKを必要とし、JDKに依存して動作します。

3.2 Scalaのプラグインをインストールします

IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。打开 IDEA,依次点击 File => settings=> plugins 选项卡,搜索 Scala 插件 (如下图)。找到插件后进行安装,并重启 IDEA 使得安装生效。

https://github.com/heibaiying

3.3 创建Scala项目

在 IDEA 中依次点击 File => New => Project 选项卡,然后选择创建 Scala—IDEA 工程:

https://github.com/heibaiying

3.4 下载Scala SDK

1. 方式一

此时看到 Scala SDK 为空,依次点击 Create => Download ,选择所需的版本后,点击 OK 按钮进行下载,下载完成点击 Finish 进入工程。

https://github.com/heibaiying

2. 方式二

方式一是 Scala 官方安装指南里使用的方式,但下载速度通常比较慢,且这种安装下并没有直接提供 Scala 命令行工具。所以个人推荐到官网下载安装包进行安装,下载地址:https://www.scala-lang.org/download/

这里我的系统是 Windows,下载 msi 版本的安装包后,一直点击下一步进行安装,安装完成后会自动配置好环境变量。

https://github.com/heibaiying

由于安装时已经自动配置好环境变量,所以 IDEA 会自动选择对应版本的 SDK。

https://github.com/heibaiying

3.5 创建Hello World

プロジェクトではsrc、ディレクトリを右クリックして新しい => Scalaのクラスが作成されますHello.scala正常に実行するために、[実行]ボタンをクリックした後、以下のコードを入力し、成功を構築表します。

https://github.com/heibaiying

Scalaのバージョン3.6を切り替えます

当日の開発に一日では、スイッチの対応するソフトウェア(例えばスパーク)バージョン以来、あなたがすることができ、Scalaのバージョンを切り替える必要性をもたらすことができるスイッチ]タブ。Project StructuresGlobal Libraries

https://github.com/heibaiying

3.7可能性のある問題

時々 IDEAでプロジェクトを再び開いた後、右クリックして、新しい表示されませんscalaオプションファイルを、または書き込みなしプロンプトScalaの文法は、その後、あなたは削除することはできませんGlobal Libraries構成されたSDKをし、後で再度追加します。

https://github.com/heibaiying

ローカルモードIDEAスパークスパーク建築プロジェクトで動作に加えて、現在の環境とHadoopのマシンでは必要ありません。

もっと大きなデータ系列は、GitHubのオープンソースプロジェクトを見つけることができますビッグデータははじめに

おすすめ

転載: blog.51cto.com/14183932/2438757