技術的な点は2つのRDDはない非常に大きい場合、結合操作は、によって減らす放送の終了により(結合)操作は類似していてもよい、RDDデータスキューを生成することができます。
放送は、読み取り専用、プロセスレベルです。
放送は、そのノードmapPartitions法によって対応するノードメモリ(blockManager管理)、RDDに放送することによって、小さなテーブルを放送するように適合され、及び(結合)のために同じキーに対して、BlockManagerによって放送コンテンツを取得することができます操作。
マップ方法はmapPartitionsがRDD各パーティションにトラバースされる、かなりのバッチ操作は(各キャッシュパーティションに対応する)配列に基づいて、パーティションのRDDの各々の各レコードを横断することです。
該当するシーン:小さなテーブルのためのブロードキャスト方法によるこの放送、データRDDの量には適用されませんが(放送変数は比較的大きな負担のために占有され、それがOOM、およびメモリを引き起こす可能性があり、非常に大きいGC、非常にそれは簡単に)メンバーのJVM古い時代になり、より大きなを取るだろう。