2. Инициализировать искру

 

Ссылка:
 
 мы настоятельно рекомендуем переключиться использовать Dataset, который имеет лучшую производительность, чем РД
 
Наиболее важная задача : создать SparkContext
    Подключено к Спарк «кластер»: местные, автономный, пряжи, Mesos
    Для создания RDD, широковещательный переменного в кластер с помощью SparkContext
    
    Нам нужно создать SparkConf объекты перед созданием SparkContext
    
    каталог бен в искре
    ./pyspark
    
    
    В PySpark оболочке, специальный интерпретатор, известно SparkContext уже создан для вас, в переменной называется СБН.
    
    
    Имя приложения
    ./pyspark --help Справка
    
    
РДД способ создания
    Коллекции Параллельные
        Данные = [1, 2, 3, 4, 5] distData = sc.parallelize (данные)
    Внешние Datasets
        distFile = sc.textFile("file:////root/app/test/hello.txt")
 
 
    If using a path on the local filesystem, the file must also be accessible at the same path on worker nodes
 

рекомендация

отwww.cnblogs.com/huangguoming/p/10929385.html