参考:
我々は非常にあなたがRDDよりも優れた性能を持っているデータセットを使用するように切り替えることをお勧めします
最も重要なタスク
:SparkContextを作成
ローカル、スタンドアロン、糸、mesos:スパーク「クラスタ」に接続されています
SparkContextによってクラスタにRDD、放送変数を作成するには
私たちは、SparkContextを作成する前に、SparkConfオブジェクトを作成する必要があります
の火花にbinディレクトリ
./pyspark
PySparkシェルでは、特別な通訳を意識しSparkContextはすでにSCという変数に、あなたのために作成されています。
appNameの
./pyspark --help見るヘルプ
RDD作成する方法
並列化コレクション
データ= [1、2、3、4、5] distData = sc.parallelize(データ)
外部データセット
distFile = sc.textFile("file:////root/app/test/hello.txt")
If using a path on the local filesystem, the file must also be accessible at the same path on worker nodes