スパーク傾きデータ・ソリューション

図1に示すように、端部減速の並列の適切な程度

 

該当するシーン:

タスクは、データの100キー・特に大量に持っている場合、それは非常にゆっくりと実行するためにOOMまたはタスクにつながる可能性があり、この時点では並列度を増加させた場合、あなたは打破することができ
、例えば、オリジナルのタスクをデータ量のタスクを100キータスク各タスクのためのデータの量を減らすことができます10に分解、問題を解決することを可能にするとタスクが遅い実行OOM。


2、デュアルキーランダム重合(reducebykey)を達成するために

 

ランダムな番号のプレフィックスキー、二次重合のキー値の処理技術を使用。
(1)第一重合(部分重合):第一重合操作reduceByKeyを行う、各キー値に乱数を追加すること。
(2)第2の重合(重合ダブル):キー値マイナス乱数の接頭辞、第reduceByKey重合を行い、重合結果は、最終的に全体的に得られます。
該当するシーン:

ランダム鍵適当groupByKey、reduceByKeyの 場合、いくつかの他の操作データをオペレータに発生したスキューケースキー値データ。ユーザが地域に応じて収束をクリックした場合、例えば、電気システムの広告をクリックして、キーの状態の元の値は、データスキューが発生し、特に、いくつかの州における値の値と、各キーを複数に分割することができますキー、キー接頭プラス乱数ブレークの値は、グループが新しいキー値random_地方を構成する、ローカルコールreduceByKey重合、ランダムな接頭辞を削除、値がまだ形成されているキーの状態を行い、その後、reduceByKeyを呼び出します世界的に重合。


図3に示すように、第1傾斜キーが結合操作を分離サンプリングした後

 

該当するシーン:

事業に参加のための二つのRDD深刻RDDデータスキューがある場合、我々は主に傾斜し、深刻なデータRDDIを持つことができます>傾けRDDll Cキーデータに元RDDL分割、その後、サンプリングの方法によって発見RDD2攘夷NオペレーションそれぞれRDD12 Cキーデータが傾いていない)、RDDIリットル、RDD1 2が実行され、その後、操作の結果は、連合は操作に参加行います。

原理:

データRDDL Lの量は、特にこの場合には、データスキューを軽減することができた場合は、解決されてなぜならキー1 RDDLで同じデータに導入スパークコア天然並列ので、原稿に傾斜していることを達成するようキーは、タスクの異なる目的に分散し、データスキューを緩和しました。
 

公開された159元の記事 ウォン称賛75 ビュー190 000 +

おすすめ

転載: blog.csdn.net/xuehuagongzi000/article/details/104053052