大規模なデータ収集のスパーク知識

スパーク反復計算は、複数のアプリケーションを必要とするデータの特定のセットの動作のためにフレームメモリに基づいています。より頻繁に繰り返される動作の必要、読み取りに必要なデータより多くの、より大きな利益、データ集約型コンピューティング小さいが大きな機会の量、スパークを使用するかどうかを検討している比較的小さい(大きいデータベーススキーマから恩恵重要な要因)。

1.スパークのコアは何ですか?

達成分散データ・セットのローカル動作に操作の抽象セットを達成するようにRDDは、スパーク、分散メモリの抽象使用の基本的な抽象化です。また、RDD物事の非常にコアを火花、それが不変、分割された表し、RDDが達成異なるデータ形式に対応する異なる組のデータの並列コレクションで動作させることができます。

RDDはシリアライズ可能である必要があります。RDDデータセットがメモリに格納することができる後のRDDは、メモリ内の各演算の結果をキャッシュすることができ、次の動作は、ディスクIOオペレーションのMapReduceの多くの必要性を排除し、メモリから直接入力することができます。より一般的な機械学習アルゴリズム、インタラクティブなデータマイニングのこの繰り返しは、効率性の向上は比較的大きいです。

2.該当するシーンスパークは何ですか?

RDDの性質のために、種類のきめ細かなアプリケーションの非同期ステータスの更新スパークは、そのようなウェブクローラとインデックスWebサービスが格納されるか、または増分されるように、適用されません。モデルの適用のために増分変更は適切ではないということです。一般的な適用のスパークは、より一般的なの広い範囲を比較します。

3、スパークサポートされているプログラミング言語はあるのですか?

RDDプログラミング言語統合方法の動作、及び同様のDryadLINQ FlumeJavaを通して露出スパークは、各データセットはオブジェクトRDD、オブジェクト対RDDを表すように設定された動作データの動作として表されます。サポートされている主要なプログラミング言語はスカラ座やJava、Pythonのあるスパーク。

スカラ

開発するのScalaを使用してスパーク、Scalaのプログラミング言語がデフォルトとして使用。プログラムを書くことのHadoopのMapReduceプログラムを書くよりもはるかに簡単であるスパーク、火花を使用すると、スパーク・シェルでプログラムをテストすることができ、火花シェルを提供します。

ジャワ

スパークは、Javaプログラミングをサポートしていますが、Javaを使用するため、そのような便利なツールスパーク・シェルが存在しない、と他のScalaプログラミング言語はJVM上にあるため、同じである、ScalaはJavaの相互運用でき、Javaプログラミング・インターフェースは、Scalaの上で実際にありますパッケージ。

パイソン

スパークは今もPythonプログラミング・インタフェースを提供し、スパークので、Pythonのスパークで書かれたプログラムを使用して実装の相互運用性とpy4jのJavaのpythonを使用して実装しました。スパークはまた、Pythonシェルのスパークは、Pythonの対話的スパークプログラムで記述することができ、pysparkを提供しています。

おすすめ

転載: blog.csdn.net/kangshufu/article/details/92427607