インターネットの発展に伴い、ビッグデータは、ほぼすべての生命との関係で生成されたビッグデータの散歩、「赤ネットワーク」の新世代となっています。スパークは、大規模データのための重要なフレームワークであり、以下がどのようにクイックスタート火花を共有することです。
Apacheのスパークは特にRDDを特徴とするアプリケーションは、ヘルプをプロセスやタスクスパーク提出し、キャッシュメカニズムを理解、ビッグデータにおける産業部門の中で最もメモリベースの技術フレームワークです。
上記のチュートリアルを誰もがビルド、タスクスケジューリングプロセス、およびアプリケーションRDDコードにスパーク環境を把握することができるようにします。
コースカタログ:
説明するために第1章スパーク知識
01_スパークを学ぶ理由
02_SparkとMapReduceのコントラスト.MP4
03_Sparkフレームワーク
04_Sparkダウンロード
05.Spark動作モードの紹介
06.Sparkのクラスタのインストール
07.Sparkプログラム実行フロー
08.Sparkは、用語集を関連しました
09_SparkShellLocal
10_SparkShellCluster
11_Spark2.2コントラストとSpark1.6Shell
第2章MavenとIDEA
12_MavenとダウンロードIDEA
13_Mavenインストール
14_IDEAインストール
15_IDEAにMavenを設定します
IDEAのScalaプラグインの16_Scala環境のインストールと設定
17_IDEAは、Sparkプロジェクトを作成します
18_Spark WORDCOUNT開発プログラム
19_Sparkパッケージ
パッケージャを実行している20_Sparkクラスタ
知識を説明するために、第3章RDD
21_RDDコンセプト
22_RDD実行プロセス
23_RDDプロパティ
24_RDDの弾力性
2種類を作成します25_RDD
26_RDDプログラミングAPI
第4章変換アルゴリズム
27_Transformationアルゴリズム
28_Actionアルゴリズム
29_Map
30_filter
31_flatMap
32_sample
33組合
34交差点
個別の35
36参加します
37_leftOuterJoin
38_rightOuterJoin
39_cartesian
40_groupBy
41_mapPartition
42_mapPartitionWithIndex
43_sortby
44_sortbykey
45_repartition
46_coalesce
47_partitionBy
48_repartitionAndSortWithinPartitions
49_reduce
50_reduceByKey
51_aggregateByKey
52_combineByKey
第5章アクションアルゴリズム
53_collect
54_count
55_top
56_take
57_takeOrdered
58_first
59_saveAsTextFile
60_foreach
61_ countByKeyの他の事業者は、
62_ countByValueの他の事業者は、
63_ filterByRangeの他の事業者は、
64_ flatMapValuesの他の事業者は、
65_ foreachPartitionの他の事業者は、
66_ keyByの他の事業者は、
キーと値の67_他の演算子
68_ collectAsMapの他の事業者は、
69_RDD伝達関数
70_RDDの依存関係
タスクの71_RDD部門
72_Lineage降下
73_RDDキャッシュ(永続的な)