ニュースリアルタイム解析システムSpark2.X環境の準備、コンパイルおよびデプロイの実行

1.Spark概要

スパークは、高速かつ汎用性の高いクラスタ・コンピューティング・プラットフォームを実現するために使用されています。

速度の面では、スパークが広く使用されているMapReduceの計算モデルを拡張するだけでなく、より効率的な計算モード、およびインタラクティブクエリ処理を含むストリームをサポートします。大規模なデータセットを扱う場合、速度が非常に重要です。私たちは、私たちは数分または数時間を待つ必要がありそうでない場合は、すべての操作をインタラクティブなデータ操作を高速化することができます。

重要な特徴は、メモリ内のスパークので、より高速に計算する能力です。しかし、たとえ複雑な計算は、ディスク上で実行する必要があり、スパークはまだのMapReduceよりも効率的です。

2.Sparkエコシステム

 

3.Spark学校のサイト

1)databricksのウェブサイト

2)スパーク公式サイト

3)githubののウェブサイト

ソースコードとコンパイルされたバージョンをダウンロードし4.Spark2.x

1)Spark2.2ソースコードダウンロードの/ opt /ソフトウェア/ bigdata-pro02.kfk.comディレクトリノードに。

減圧

タール-zxf火花-2.2.0.tgz -Cは/ opt /モジュール/

Maven3.3.9とJava8:2)必要な環境をコンパイルspark2.2

3)スパークソースコードをコンパイルする方法:Mavenのコンパイルは、SBTは、コンパイルされた(No)は、編集make-distribution.sh包装します

a)のダウンロード Jdk8をしてインストール

タール-zxf jdk8u11-linuxの-x64.tar.gz -Cは/ opt /モジュール/

b)のJAVA_HOMEの設定は/ etc / profile

viのは/ etc / profile

輸出JAVA_HOME =は/ opt /モジュール/ jdk1.8.0_11

輸出PATH = $ PATHに:$ JAVA_HOME / binに

編集が終了した後、力にそれを持って来ます

ソースは/ etc / profile

c)の問題が発生した場合は、現在のバージョンをロードすることはできません

ます。rpm -qa | grepのJDK

RPM -eは、JDKのバージョンを--nodeps

Javaの删除は/ usr / binに/ javaの

d)にMavenをダウンロードし、解凍します

ダウンロード Mavenを

解凍達人

タール-zxfのapache-mavenの-3.3.9-bin.tar.gz -Cは/ opt /モジュール/

設定MAVEN_HOME

viのは/ etc / profile

輸出MAVEN_HOME =は/ opt /モジュール/ apacheの-のmaven-3.3.9

輸出PATH = $ PATHに:$ MAVEN_HOME / binに

輸出MAVEN_OPTSの= " - Xmx2g -XX:MaxPermSizeを= 1024M -XX:ReservedCodeCacheSize = 1024M"

編集が終了した後、力にそれを持って来ます

ソースは/ etc / profile

ビューMavenのバージョン

MVN -version

E)make-distribution.sh編集内容は、より高速なコンパイルすることができます

VERSION = 2.2.0

SCALA_VERSION = 2.11.8

SPARK_HADOOP_VERSION = 2.5.0

ハイブの#サポートスパーク

SPARK_HIVE = 1

4)スパークソースコンパイラmake-distribution.shにより

-Phadoop-2.5 -Phive --tgz ./dev/make-distribution.sh --nameカスタムスパーク-Phive-thriftserver -Pyarn

終了後の#コンパイラの解凍

タールは、スパーク2.2.0-binの-カスタムspark.tgz -zxf -Cは/ opt /モジュール/

5.scalaのインストールと環境変数の設定

1)ダウンロード

2)解凍

タール-zxfのscala-2.11.8.tgz -Cは/ opt /モジュール/

3)設定の環境変数

viのは/ etc / profile

輸出SCALA_HOME =は/ opt /モジュール/スカラ-2.11.8

輸出PATH = $ PATH:$のSCALA_HOME / binに

編集が終了した後4)、力にそれを持って来ます

ソースは/ etc / profile

6.spark2.0ローカルモードのテスト

1)スパークシェルテストを開始

./bin/spark-shell

スカラ> valをテキストファイル= spark.read.textFile( "README.md")

テキストファイル:org.apache.spark.sql.Dataset [文字列] = [値:文字列]

 

スカラ> textFile.count()

RES0:ロング= 126

 

スカラ> textFile.first()

RES1:文字列=#Apacheのスパーク

 

スカラ>ヴァルlinesWithSpark = textFile.filter(ライン=> line.contains( "スパーク"))

linesWithSpark:org.apache.spark.sql.Dataset [文字列] = [値:文字列]

 

スカラ> textFile.filter(ライン=> line.contains( "スパーク"))。(カウント)//どのように多くの行 "スパーク" が含まれていますか?

RES3:ロング= 15

2)単語頻度統計

a)は、ローカルファイルstu.txtを作成します

我々は/opt/datas/stu.txt

Hadoopの嵐スパーク

HBaseのスパーク水路

スパークdajiangtaiスパーク

HDFSのMapReduceのスパーク

ハイブHDFSのSolrの

スパークFLINKの嵐

HBaseのストームES     

Solrのdajiangtaiスカラ

LinuxのJavaのスカラ

PythonのスパークMLIB

カフカのスパークのmysql

それはSCALAスパーク

アズカバンoozie mysqlの

嵐の嵐の嵐

ScalaのMySQLはあります

スパークスパークスパーク

B)スパークシェル単語頻度統計

./bin/spark-shell

スカラ>ヴァルRDD = spark.read.textFile( "は/ opt /件のデータ/ stu.txt")

#単語の頻度統計

スカラ>ヴァル線= rdd.flatmap(X => x.split(」「))。地図(X =>(X、1))。rdd.reduceBykey((A、B)=>(A + B)) .collect

単語の出現頻度の#ソート

スカラ>ヴァル線= rdd.flatmap(X => x.split(」「))。地図(X =>(X、1))。rdd.reduceBykey((A、B)=>(A + B)) .MAP(X =>(x._2、x._1))。sortBykey()マップ(X =>(x._2、x._1))。コレクト

7.spark監視サービスのウェブページ

Webページを通じてサービスの火花をチェック

bigdata-pro01.kfk.com:4040

 

おすすめ

転載: www.cnblogs.com/misliu/p/11112378.html