2.火花を初期化します

 

参考:
 
 我々は非常にあなたがRDDよりも優れた性能を持っているデータセットを使用するように切り替えることをお勧めします
 
最も重要なタスク :SparkContextを作成
    ローカル、スタンドアロン、糸、mesos:スパーク「クラスタ」に接続されています
    SparkContextによってクラスタにRDD、放送変数を作成するには
    
    私たちは、SparkContextを作成する前に、SparkConfオブジェクトを作成する必要があります
    
    の火花にbinディレクトリ
    ./pyspark
    
    
    PySparkシェルでは、特別な通訳を意識しSparkContextはすでにSCという変数に、あなたのために作成されています。
    
    
    appNameの
    ./pyspark --help見るヘルプ
    
    
RDD作成する方法
    並列化コレクション
        データ= [1、2、3、4、5] distData = sc.parallelize(データ)
    外部データセット
        distFile = sc.textFile("file:////root/app/test/hello.txt")
 
 
    If using a path on the local filesystem, the file must also be accessible at the same path on worker nodes
 

おすすめ

転載: www.cnblogs.com/huangguoming/p/10929385.html