ローカルモード
アウトライン
ローカルモデルは、一般的に手を練習するために使用し、マシン上でテストされ、それがスレッドワーカーにマッピングされる、コンピュータのスパークプログラム上で実行されます。
1)ローカル:スレッドで実行されるすべての計算は、何の並列計算は、一般的に、我々は、ネイティブコードでテストの数を行わない、またはこのモデルを使用するように、手を実施します。
2)ローカル[K]:ローカル[4]ワーカースレッド4として実行するいくつかのスレッドを使用して計算を指定し、実行されています。通常、我々はいくつかのCPUコアは、あなたが複数のスレッドを指定する必要があり、CPUは、コンピューティングパワーを最大限に活用しました。
3)ローカル[*]:このモードは、最も直接的にあなたがスレッド数を設定するには、CPUコアに従ってください助けています。
インスト
1)アップロード及び抽出スパークインストールパッケージを
火花2.1.1-binの-hadoop2.7.tgz -Cは/ opt /モジュール/ -zxvfタール
2)公式の要求PI ケース
ビン/火花提出\
--class org.apache.spark.examples.SparkPi \
--executor-メモリ1G \
--total-パフォーマー-色2 \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100
このアルゴリズムは、モンテカルロアルゴリズムであるPI、次の結果:
スタンドアロンモード
建設スレーブ+マスターの設定ネイティブスパークエクスプローラ、使用してスパーククラスタ、クラスタ内のスパーク実行を。
糸モード
概要:
スパーククライアントは、直接接続された糸、追加なし建物スパーククラスタを。そこ糸クライアントと糸クラスタモードは、主な違いは次のとおりです。ファイル名を指定して実行ノードドライバプログラム。
糸クライアント:ローカルメイン・プログラム・ロジックの実行は、タスクは、クラスタ糸で実行されます
クラスタ糸:APPMaster、メイン・プログラム・ロジックとタスクは糸クラスタを実行しています。本番環境のために。
インストール:
1)変更のHadoopプロファイル糸-site.xmlの、次の行を追加します。
<! - タスクが値を超えている場合は、スレッドのチェックに各タスクによって使用されている物理メモリの量を開始するかどうかはキルに直接割り当てられ、デフォルトはtrue - > < プロパティ> < 名前> yarn.nodemanager.pmem-有効チェック</ 名前> < 値> falseに</ 値> </ プロパティ> <! - 各タスクのために使用されている仮想メモリの量をスレッドチェックを開始するかどうか、タスクが値を超えている場合は、殺すために直接割り当てられていますデフォルトはtrueにある- > < プロパティ> < 名前> yarn.nodemanager.vmem-チェック対応</ 名前> < 値> falseに</ 値> </プロパティ>
2)物流プロフィール
XSYNC /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
3)変更spark-env.sh、次の設定を追加します:
YARN_CONF_DIR =は/ opt /モジュール/ Hadoopの-2.7.2の/ etc / Hadoopの
プログラム4)実装
$ビン/火花提出\
--class org.apache.spark.examples.SparkPi \
糸--master \
--deployモードクライアント\
./examples/jars/spark-examples_2.11-2.1.1.jar \
100
注意:
糸が正常に開始されていることを保証するためのプログラムを実行する前に1.とHDFS
有効にする設定ファイルを作るために糸の糸を再起動するように設定ファイルを変更した後2。
3.糸モード、すべてのノードのすべての下位スパークパッケージが必要なのでしょうか?それは糸上で実行されているのでいいえ、、リソース管理とスケジューリングは、糸を担当しています。火花を提供する唯一のクライアントノードで。
スパーク・シェル
スタート火花シェル正しい姿勢は次のとおりです。ディレクトリの下にスパーク、入力ビン/火花シェル
正しい姿勢のクローズ火花シェルがある::結腸に、注意を払うを終了します
一部のパラメータは次の通り(火花送信以後、非常に類似している)です。
オプション:
--master MASTER_URLスパーク://ホスト:ポート、mesos://ホスト:ポート、糸、またはローカル。
ローカルドライバプログラムを起動する--deployモードDEPLOY_MODEかどうか(「クライアント」)、または
クラスタ内のワーカーマシンの1の(「クラスタ」)
(デフォルト:クライアント)。
スパークジョブ送信
基本语法:
binに/火花防止\提出
- クラス<メーンクラス>
--master <マスター-URL> \
--deployモード<配備モード> \
--conf <キー> = <値> \
.. 。#他のオプション
<アプリケーションのjar> \
[アプリケーションの引数]
\セパレーターです。
- このオプションはオプションであることを示し、順序が変換可能
指定されたアドレス--masterマスターは、デフォルトではローカルです。
パターンは、糸の場合、糸があります
スタンドアロンモードならば、それはスパークです://マスター:ポート
モードがローカルである場合、それは、ローカル[n]はローカルである(nは核の数を表す)、[*]ローカル(* CPUコアの数は、スレッドの数に応じて設定されていることを示します)
--class:(などorg.apache.spark.examples.SparkPiなど)、アプリケーション内のクラスを開始
--deployモード:ワーカーノード(クラスタ)に、またはローカルクライアント(クライアント)(デフォルト:クライアント)として、あなたのドライブを公開するかどうか*
--conf:スパーク任意の構成属性、フォーマットキー=値値にスペース、引用符がある場合は、「キー=値」を
アプリケーションのjar:パッケージ化されたアプリケーションのjarファイルは、世界的に目に見えるクラスタ内のこのURLに依存しているが含まれています。それがファイルである場合は、//共有ストレージシステム、:たとえば、HDFSの場合は//パス、パスのノードはすべて同じjarファイルが含まれています
アプリケーションの引数:main()メソッドに渡されたパラメータ
各エグゼキュータで使用可能な指定--executor、メモリ1G 1Gメモリ
--total・エグゼキュータ・コアカップに使用される核の数を指定し、各エグゼキュータの2 2