アンシリアライズの問題をスパーク(タスクではないシリアライズ)

次のように難しいことではありませんが、シリアル化の問題をスパークが、データはシステムではなく、要約されています:

問題が発生したため、

スパークオペレータが外部変数を使用するときに場合、以下に示すように、シリアル化問題は、発生します。

オペレータ上記図は、JVM間で異なるデータ交換に属する各ノードの実行をマッピングされ、コンテンツがシリアライズ交換する必要があります。これが理由のシリアル化です。

方法

1)カテゴリーの配列、および放送のための使用

2)オペレータの変数を呼び出します

シリアライゼーションクラスは、変数ラジオ放送、良い方法を使用して、利点は、あなたが一度だけクラスを初期化する必要がある場合ということです。次のようにその使用は次のとおりです。

 

次のようにクラスは、インタフェース、ジャワのような実装を実装する必要があります。

 

 

第二の方法は、クラス内で実施されます。

CONF = SparkContextにより、sparkconfオペレータ内の他のパラメータが所望される場合。)(getOrCreateを実現

他の演算子は、サブカテゴリーを初期化することができる、欠点は、各マップは、クラスを初期化する必要があることです。そして、シリアライズ追加の操作を必要としません。

以下を達成するために:

 

おすすめ

転載: www.cnblogs.com/wind-man/p/11288704.html