ビッグデータ学習ロードマップのチュートリアル、どのようにクイックスタートスパーク

インターネットの発展に伴い、ビッグデータは、ほぼすべての生命との関係で生成されたビッグデータの散歩、「赤ネットワーク」の新世代となっています。スパークは、大規模データのための重要なフレームワークであり、以下がどのようにクイックスタート火花を共有することです。

Apacheのスパークは特にRDDを特徴とするアプリケーションは、ヘルプをプロセスやタスクスパーク提出し、キャッシュメカニズムを理解、ビッグデータにおける産業部門の中で最もメモリベースの技術フレームワークです。

上記のチュートリアルを誰もがビルド、タスクスケジューリングプロセス、およびアプリケーションRDDコードにスパーク環境を把握することができるようにします。

コースカタログ:

説明するために第1章スパーク知識

01_スパークを学ぶ理由

02_SparkとMapReduceのコントラスト.MP4

03_Sparkフレームワーク

04_Sparkダウンロード

05.Spark動作モードの紹介

06.Sparkのクラスタのインストール

07.Sparkプログラム実行フロー

08.Sparkは、用語集を関連しました

09_SparkShellLocal

10_SparkShellCluster

11_Spark2.2コントラストとSpark1.6Shell

第2章MavenとIDEA

12_MavenとダウンロードIDEA

13_Mavenインストール

14_IDEAインストール

15_IDEAにMavenを設定します

IDEAのScalaプラグインの16_Scala環境のインストールと設定

17_IDEAは、Sparkプロジェクトを作成します

18_Spark WORDCOUNT開発プログラム

19_Sparkパッケージ

パッケージャを実行している20_Sparkクラスタ

知識を説明するために、第3章RDD

21_RDDコンセプト

22_RDD実行プロセス

23_RDDプロパティ

24_RDDの弾力性

2種類を作成します25_RDD

26_RDDプログラミングAPI

第4章変換アルゴリズム

27_Transformationアルゴリズム

28_Actionアルゴリズム

29_Map

30_filter

31_flatMap

32_sample

33組合

34交差点

個別の35

36参加します

37_leftOuterJoin

38_rightOuterJoin

39_cartesian

40_groupBy

41_mapPartition

42_mapPartitionWithIndex

43_sortby

44_sortbykey

45_repartition

46_coalesce

47_partitionBy

48_repartitionAndSortWithinPartitions

49_reduce

50_reduceByKey

51_aggregateByKey

52_combineByKey

第5章アクションアルゴリズム

53_collect

54_count

55_top

56_take

57_takeOrdered

58_first

59_saveAsTextFile

60_foreach

61_ countByKeyの他の事業者は、

62_ countByValueの他の事業者は、

63_ filterByRangeの他の事業者は、

64_ flatMapValuesの他の事業者は、

65_ foreachPartitionの他の事業者は、

66_ keyByの他の事業者は、

キーと値の67_他の演算子

68_ collectAsMapの他の事業者は、

69_RDD伝達関数

70_RDDの依存関係

タスクの71_RDD部門

72_Lineage降下

73_RDDキャッシュ(永続的な)

おすすめ

転載: blog.51cto.com/14489558/2460157