どのようにクイックスタートチュートリアルへの大規模なデータを受信して自由Spark--

インターネットの発展に伴い、ビッグデータは、ほぼすべての生命との関係で生成されたビッグデータの散歩、「赤ネットワーク」の新世代となっています。スパークは、大規模なデータ、以下、クイックスタート、火花を共有する方法についての教師の養成のための大規模なデータフロントの何千ものために重要なフレームワークです。

 

 

Apacheのスパークは特にRDDを特徴とするアプリケーションは、ヘルプをプロセスやタスクスパーク提出し、キャッシュメカニズムを理解、ビッグデータにおける産業部門の中で最もメモリベースの技術フレームワークです。

 

上記のチュートリアルを誰もがビルド、タスクスケジューリングプロセス、およびアプリケーションRDDコードにスパーク環境を把握することができるようにします。

 

コースカタログ:

第一章のスパークを説明するための知識

01_スパークを学ぶ理由

02_SparkとMapReduceのコントラスト.MP4

03_Sparkフレームワーク

04_Sparkダウンロード

05.Spark動作モードの紹介

06.Sparkのクラスタのインストール

07.Sparkプログラム実行フロー

08.Sparkは、用語集を関連しました

09_SparkShellLocal

10_SparkShellCluster

11_Spark2.2コントラストとSpark1.6Shell

第二章のMaven とIDEA

12_MavenとダウンロードIDEA

13_Mavenインストール

14_IDEAインストール

15_IDEAにMavenを設定します

IDEAのScalaプラグインの16_Scala環境のインストールと設定

17_IDEAは、Sparkプロジェクトを作成します

18_Spark WORDCOUNT開発プログラム

19_Sparkパッケージ

パッケージャを実行している20_Sparkクラスタ

3 章RDDの説明するための知識

21_RDDコンセプト

22_RDD実行プロセス

23_RDDプロパティ

24_RDDの弾力性

2種類を作成します25_RDD

26_RDDプログラミングAPI

4 章変換アルゴリズム

27_Transformationアルゴリズム

28_Actionアルゴリズム

29_Map

30_filter

31_flatMap

32_sample

33組合

34交差点

個別の35

36参加します

37_leftOuterJoin

38_rightOuterJoin

39_cartesian

40_groupBy

41_mapPartition

42_mapPartitionWithIndex

43_sortby

44_sortbykey

45_repartition

46_coalesce

47_partitionBy

48_repartitionAndSortWithinPartitions

49_reduce

50_reduceByKey

51_aggregateByKey

52_combineByKey

5 章アクションアルゴリズム

53_collect

54_count

55_top

56_take

57_takeOrdered

58_first

59_saveAsTextFile

60_foreach

61_ countByKeyの他の事業者は、

62_ countByValueの他の事業者は、

63_ filterByRangeの他の事業者は、

64_ flatMapValuesの他の事業者は、

65_ foreachPartitionの他の事業者は、

66_ keyByの他の事業者は、

キーと値の67_他の演算子

68_ collectAsMapの他の事業者は、

69_RDD伝達関数

70_RDDの依存関係

タスクの71_RDD部門

72_Lineage降下

73_RDDキャッシュ(永続的な)

 

(ビデオのスクリーンショットを参照)

 

 

プライベートの手紙は必要  サポートビデオ受信する+ データ+ のソースコードを

 

 

发布了312 篇原创文章 · 获赞 213 · 访问量 41万+

おすすめ

転載: blog.csdn.net/GUDUzhongliang/article/details/103617916