Ссылка:
мы настоятельно рекомендуем переключиться использовать Dataset, который имеет лучшую производительность, чем РД
Наиболее важная задача
: создать SparkContext
Подключено к Спарк «кластер»: местные, автономный, пряжи, Mesos
Для создания RDD, широковещательный переменного в кластер с помощью SparkContext
Нам нужно создать SparkConf объекты перед созданием SparkContext
каталог бен в искре
./pyspark
В PySpark оболочке, специальный интерпретатор, известно SparkContext уже создан для вас, в переменной называется СБН.
Имя приложения
./pyspark --help Справка
РДД способ создания
Коллекции Параллельные
Данные = [1, 2, 3, 4, 5] distData = sc.parallelize (данные)
Внешние Datasets
distFile = sc.textFile("file:////root/app/test/hello.txt")
If using a path on the local filesystem, the file must also be accessible at the same path on worker nodes