スクリプトプロセスでインポートpyspark
輸入OS
輸入SYS
spark_name = os.environ.get( 'SPARK_HOME'、なし)
#SPARK_HOMEインストールディレクトリのその火花はなく、ビンレベル、通常は/ usr / local /火花
spark_homeない場合:
ValueErrorError(「火花環境が設定されていない」)を上げます
#のsys.pathのパスを見つけるために、サードパーティ製のパッケージのPythonのリストであり、パスがXXXX、モーダル見つけることができません避けるために追加するパッケージにインポートされます
この方法は、同時に火花提出=「/パス/に/私/パイソン/ packages.zip」において提出されたパラメータ#の--py_filesを追加する必要があり、ジップバッグに依存して一貫性のある結果に追加
sys.path.insert(0、 '/ルート/ virtualenvs / my_envs / libに/ python3.6 /のsite-packages /')
sys.path.insert(0、os.path.join(spark_name 'のpython')
sys.path.insert(0、os.path.join(spark_name、 'パイソン/ libに/ py4j-0.10.7-src.zip'))
#1 sys.path.insert(0、os.path.join(spark_name、 'libexecに/のpython'))
#1 sys.path.insert(0、os.path.join(spark_name、 'libexex /パイソン/ビルド'))
pyspark輸入からSparkConf、SparkContext
設定するPythonランタイムバージョンpyspark
私たち〜/ .bashrcに
輸出PYSPARK_PYTHON =は/ usr / local / binに/のpython3
輸出PYSPARK_DRIVER_PYTHON = ipython3
完了編集保存して終了
ソース〜/ .bashrcに