Apacheのスパーク2.4.4リリース、オープンソースのクラスタ・コンピューティング環境

Apacheのスパークがの一種である  Hadoopの  類似のオープンソースのクラスタ・コンピューティング環境が、両者の間にいくつかの違いが残っている、特定のワークロードのパフォーマンスがスパークとの間にこれらの便利な相違点は、他の言葉で、優れていた、スパークメモリ分散データセットを有効に、インタラクティブクエリを提供することに加えて、それはまた、反復ワークロードを最適化することができます。

バージョン2.4.4は、次のように読み込み、修正の安定性のメンテナンスリリースを、含まれています。

  • 修理小数toScalaBigInt / toJavaBigInteger進表現は長い質問には適していません
  • PushProjectionThroughUnion NULL可能な問題を修復
  • From_Avroがネイティブモードでの変数の他の行は変更されません修復
  • HiveUDAF 0行が予期せぬ遭遇した場合は2.4.3をスパークNPEがスローされます。他のバージョンと同様に、修理後にNULLを返します
  • PySparkSocket修理同期サーバとJVMスレッド接続
  • KafkaOffsetRangeCalculator.getRangeオフセット減らすことができます
  • 不確実な再実行するときにRDDは、誤った結果につながることができ、ステージキャッシュ
  • スパーク2.2が正しくないLinearSVCModel.setWeightCol方法を導入します。これは2.4.4で放棄された、3.0.0が削除されます

詳細は説明されています。

https://spark.apache.org/releases/spark-release-2-4-4.html

おすすめ

転載: www.oschina.net/news/109702/spark-2-4-4-released