まず、スパークをインストール
1.1のダウンロードと解凍
公式ダウンロード:http://spark.apache.org/downloads.html、選択スパークバージョンと、その後のHadoopの対応するバージョンをダウンロードしてください:
インストールパッケージを抽出します:
# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
1.2設定環境変数
# vim /etc/profile
環境変数を追加します。
export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
それはすぐに反映するために、環境変数の設定を行います
# source /etc/profile
1.3ローカルモード
ローカルモードは、毎日のテスト開発に適した箱の外に、展開しない、単一ノードのマルチスレッド実行を使用する操作の最も簡単なモードです。
# 启动spark-shell
spark-shell --master local[2]
- ローカル:唯一のワーカースレッドを起動します。
- ローカル[K]:k個の開始ワーカースレッド。
- * ローカル[ ] **:CPUの数が同じでワーカースレッドの数を開始します。
スパークシェルを入力した後、プログラムが自動的にコンテキストを作成してSparkContext
、それは次のScalaのコードを実行することと等価です。
val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)
第二に、単語頻度統計ケース
インストールが完了したら、あなたは単語頻度統計の簡単な例を行うことができ、スパークの魅力を感じています。サンプルのドキュメントの単語頻度統計を用意しwc.txt
、以下のように、:
hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop
スカラスカラ対話型コマンドラインで次の文を実行します。
val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect
次のように実装プロセスは、我々は結果の出力周波数の統計情報を見ることができます:
同時に、あなたは、Web、アクセスポートを介してUIジョブの実装を見ることができます4040
。
三、Scalaの開発環境の設定
スパークは、Scalaの言語発達に基づいており、あなたはScalaの言語発達を使用したい場合は、我々はScalaの言語の開発環境を構築する必要があり、スカラ座、ジャワ、Python言語のAPIに基づいて提供されています。
3.1 前置条件
ScalaはあなたがマシンがJDKの対応するバージョンを持ってインストールする必要がありますので、最新のScalaの2.12.xが1.8+ JDKを必要とし、JDKに依存して動作します。
3.2 Scalaのプラグインをインストールします
IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。打开 IDEA,依次点击 File => settings=> plugins 选项卡,搜索 Scala 插件 (如下图)。找到插件后进行安装,并重启 IDEA 使得安装生效。
3.3 创建Scala项目
在 IDEA 中依次点击 File => New => Project 选项卡,然后选择创建 Scala—IDEA
工程:
3.4 下载Scala SDK
1. 方式一
此时看到 Scala SDK
为空,依次点击 Create
=> Download
,选择所需的版本后,点击 OK
按钮进行下载,下载完成点击 Finish
进入工程。
2. 方式二
方式一是 Scala 官方安装指南里使用的方式,但下载速度通常比较慢,且这种安装下并没有直接提供 Scala 命令行工具。所以个人推荐到官网下载安装包进行安装,下载地址:https://www.scala-lang.org/download/
这里我的系统是 Windows,下载 msi 版本的安装包后,一直点击下一步进行安装,安装完成后会自动配置好环境变量。
由于安装时已经自动配置好环境变量,所以 IDEA 会自动选择对应版本的 SDK。
3.5 创建Hello World
プロジェクトではsrc
、ディレクトリを右クリックして新しい => Scalaのクラスが作成されますHello.scala
。正常に実行するために、[実行]ボタンをクリックした後、以下のコードを入力し、成功を構築表します。
Scalaのバージョン3.6を切り替えます
当日の開発に一日では、スイッチの対応するソフトウェア(例えばスパーク)バージョン以来、あなたがすることができ、Scalaのバージョンを切り替える必要性をもたらすことができるスイッチ]タブ。Project Structures
Global Libraries
3.7可能性のある問題
時々 IDEAでプロジェクトを再び開いた後、右クリックして、新しい表示されませんscala
オプションファイルを、または書き込みなしプロンプトScalaの文法は、その後、あなたは削除することはできませんGlobal Libraries
構成されたSDKをし、後で再度追加します。
ローカルモードIDEAスパークスパーク建築プロジェクトで動作に加えて、現在の環境とHadoopのマシンでは必要ありません。
もっと大きなデータ系列は、GitHubのオープンソースプロジェクトを見つけることができます:ビッグデータははじめに