図1に示すように、端部減速の並列の適切な程度
該当するシーン:
タスクは、データの100キー・特に大量に持っている場合、それは非常にゆっくりと実行するためにOOMまたはタスクにつながる可能性があり、この時点では並列度を増加させた場合、あなたは打破することができ
、例えば、オリジナルのタスクをデータ量のタスクを100キータスク各タスクのためのデータの量を減らすことができます10に分解、問題を解決することを可能にするとタスクが遅い実行OOM。
2、デュアルキーランダム重合(reducebykey)を達成するために
ランダムな番号のプレフィックスキー、二次重合のキー値の処理技術を使用。
(1)第一重合(部分重合):第一重合操作reduceByKeyを行う、各キー値に乱数を追加すること。
(2)第2の重合(重合ダブル):キー値マイナス乱数の接頭辞、第reduceByKey重合を行い、重合結果は、最終的に全体的に得られます。
該当するシーン:
ランダム鍵適当groupByKey、reduceByKeyの 場合、いくつかの他の操作データをオペレータに発生したスキューケースキー値データ。ユーザが地域に応じて収束をクリックした場合、例えば、電気システムの広告をクリックして、キーの状態の元の値は、データスキューが発生し、特に、いくつかの州における値の値と、各キーを複数に分割することができますキー、キー接頭プラス乱数ブレークの値は、グループが新しいキー値random_地方を構成する、ローカルコールreduceByKey重合、ランダムな接頭辞を削除、値がまだ形成されているキーの状態を行い、その後、reduceByKeyを呼び出します世界的に重合。
図3に示すように、第1傾斜キーが結合操作を分離サンプリングした後
該当するシーン:
事業に参加のための二つのRDD深刻RDDデータスキューがある場合、我々は主に傾斜し、深刻なデータRDDIを持つことができます>傾けRDDll Cキーデータに元RDDL分割、その後、サンプリングの方法によって発見RDD2攘夷NオペレーションそれぞれRDD12 Cキーデータが傾いていない)、RDDIリットル、RDD1 2が実行され、その後、操作の結果は、連合は操作に参加行います。
原理:
データRDDL Lの量は、特にこの場合には、データスキューを軽減することができた場合は、解決されてなぜならキー1 RDDLで同じデータに導入スパークコア天然並列ので、原稿に傾斜していることを達成するようキーは、タスクの異なる目的に分散し、データスキューを緩和しました。