Sparkビッグデータ解析と実戦放課後演習参考解答

プロジェクト 1:

1. 多肢選択式の質問
DCCDAD
2. 記述式の質問
1. Hadoop MapReduce では、ディスクへの各ステップ間でデータのシリアル化が必要なため、I/O コストが高く、対話型分析や反復アルゴリズムのオーバーヘッドが高くなります。Spark はメモリ コンピューティングを提供します。中間結果はメモリに配置されるため、反復効率が向上します。Spark は、有向非巡回グラフ (DAG) の分散並列コンピューティング プログラミング フレームワークをサポートすることにより、反復プロセス中にデータをディスクに書き込む必要性を減らし、処理効率を向上させます。
2. ローカル モード (スタンドアロン モード)、スタンドアロン モード、Spark on Mesos モード、Spark on YARN モード

項目 2:

1. 正誤問題
√√×√×
2. 多肢選択問題
DDBDC
 

項目 3:

1. 正誤問題
√××××
2. 多肢選択問題
DABC

項目 4:

1. 正誤問題
√×√√×
2. 多肢選択問題
DDDA

項目 5:

1. 判断問題
×××××
2. 質疑応答
1. 本書の図 5-40 では、入力データ Input に対して、Spark は論理的に 2 つの RDD (RDD1 と RDD2) を生成し、一連の「変換」操作を経た後、 、論理的には RDDn が生成されますが、上記の RDD は実際には生成されず、論理データ セットであり、Spark は RDD 間の生成と依存関係を記録するだけです。RDDnが出力(「アクション演算」の実行)しようとすると、SparkはRDDの依存関係に従ってDAG(有向非巡回グラフ)を生成し、開始点から実際の計算を開始します。

2. 狭い依存関係: RDD は、その親 RDD に対して単純な 1 対 1 の依存関係のみを持ちます。つまり、RDD 内の各パーティションは、親 RDD 内の 1 つのパーティション、親 RDD のパーティション、および子 RDD にのみ依存します。それらの間には 1 対 1 の関係があります。この場合、これは RDD 間の単純な依存関係であり、狭い依存関係とも呼ばれます。
幅広い依存関係: 本質はシャッフルです。つまり、親 RDD の各パーティション内のデータが次の RDD の各パーティションに転送される可能性があります。つまり、各親 RDD と子 RDD のパーティション間には、混合関係があります。 、この状況は次のように呼ばれます。

項目 6:

1. 正誤問題
××√××
2. 質疑応答
1. ストリーム データの場合、Spark Streaming はリアルタイム入力データ ストリームを受信した後、データ ストリームをタイム スライス (第 2 レベル) 単位で小さなバッチに分割します。 ) 次に、各タイム スライス データが Spark エンジンによってバッチのような方法で処理されます。Spark Streaming は、ストリーミング コンピューティングを一連の短いバッチ処理ジョブに分解します。つまり、Spark Streaming の入力データは時間セグメント (たとえば、 1 秒として)、離散データ ストリーム (DStream、Discretized Stream と呼ばれます) に分割され、各データが Spark で RDD に変換され、Spark Streaming での DStream ストリーム処理オペレーションが Spark Operation
2で RDD のバッチ処理に変更されます。手順は次のとおりです:
(1) 入力 DStream を作成して入力ソースを定義します
(2) DStream に対して変換および出力操作を実行して、ストリーム コンピューティングを定義します。
(3)streamingContext.start()でデータの受信と処理フローを開始します。
(4) streamingContext.awaitTermination() メソッドは、処理が (手動またはエラーにより) 終了するのを待ちます。
(5) streamingContext.stop() を使用して、ストリーム コンピューティング プロセスを手動で終了できます。

項目 7:

1. 正誤問題
√√×××
2. 質疑応答
1. K 平均法アルゴリズムはクラスタリング アルゴリズムであり、いわゆるクラスタリングとは、次の原理に従って、類似性の高いデータ オブジェクトを同じクラスタに分割することを指します。類似性を使用して、非類似性が高いデータ オブジェクトを異なるクラスターに分割します。クラスタリングと分類の最大の違いは、クラスタリング プロセスは教師なしプロセ​​ス、つまり処理対象のデータ オブジェクトに事前知識がないのに対し、分類プロセスは教師ありプロセス、つまりトレーニング データがあることです。事前知識を踏まえた上で設定します。
2. 推奨システムは、コンテンツベースの推奨、知識ベースの推奨、および協調フィルタリングベースの推奨に分かれます。コンテンツベースの推奨アルゴリズムの原理は、ユーザーは自分がフォローしているアイテムとコンテンツが似ているアイテムを好むというもので、協調フィルタリングにはユーザーベースの協調フィルタリングとアイテムベースの協調フィルタリングが含まれます。ユーザーに基づく協調フィルタリングの推奨は、「似た匂いがする」という言葉で表現できます。ユーザー A がパーソナライズされた推奨事項が必要な場合、最初に A に似ている他のユーザーを見つけて、次にそれらのユーザーを好むユーザーを配置できますが、ユーザー A はAさんに勧められたアイテム。アイテムベースの協調フィルタリング推奨では、アイテムに対するユーザーの好み (レベル) を使用し、アイテム間の類似性を計算し、最も類似したアイテムを見つけて推奨します。

おすすめ

転載: blog.csdn.net/m0_63394128/article/details/125752350