2-スパーク-1-チューニング - データは、2-参加/ブロードキャストの使用シナリオをスキュー

技術的な点は2つのRDDはない非常に大きい場合、結合操作は、によって減らす放送の終了により(結合)操作は類似していてもよい、RDDデータスキューを生成することができます。

  放送は、読み取り専用、プロセスレベルです。

  放送は、そのノードmapPartitions法によって対応するノードメモリ(blockManager管理)、RDDに放送することによって、小さなテーブルを放送するように適合され、及び(結合)のために同じキーに対して、BlockManagerによって放送コンテンツを取得することができます操作。

  マップ方法はmapPartitionsがRDD各パーティションにトラバースされる、かなりのバッチ操作は(各キャッシュパーティションに対応する)配列に基づいて、パーティションのRDDの各々の各レコードを横断することです。

該当するシーン:小さなテーブルのためのブロードキャスト方法によるこの放送、データRDDの量には適用されませんが(放送変数は比較的大きな負担のために占有され、それがOOM、およびメモリを引き起こす可能性があり、非常に大きいGC、非常にそれは簡単に)メンバーのJVM古い時代になり、より大きなを取るだろう。

 

おすすめ

転載: www.cnblogs.com/ywdjx/p/2-Spark-1-performance2.html