pysparkは、環境設定を使用する場合

 

スクリプトプロセスでインポートpyspark

輸入OS 

輸入SYS

spark_name = os.environ.get( 'SPARK_HOME'、なし)

#SPARK_HOMEインストールディレクトリのその火花はなく、ビンレベル、通常は/ usr / local /火花

spark_homeない場合:

    ValueErrorError(「火花環境が設定されていない」)を上げます

 

#のsys.pathのパスを見つけるために、サードパーティ製のパッケージのPythonのリストであり、パスがXXXX、モーダル見つけることができません避けるために追加するパッケージにインポートされます

この方法は、同時に火花提出=「/パス/に/私/パイソン/ packages.zip」において提出されたパラメータ#の--py_filesを追加する必要があり、ジップバッグに依存して一貫性のある結果に追加

sys.path.insert(0、 '/ルート/ virtualenvs / my_envs / libに/ python3.6 /のsite-packages /')

sys.path.insert(0、os.path.join(spark_name 'のpython')

sys.path.insert(0、os.path.join(spark_name、 'パイソン/ libに/ py4j-0.10.7-src.zip'))

#1 sys.path.insert(0、os.path.join(spark_name、 'libexecに/のpython'))

#1 sys.path.insert(0、os.path.join(spark_name、 'libexex /パイソン/ビルド'))

 

pyspark輸入からSparkConf、SparkContext

 

設定するPythonランタイムバージョンpyspark

私たち〜/ .bashrcに

輸出PYSPARK_PYTHON =は/ usr / local / binに/のpython3 

輸出PYSPARK_DRIVER_PYTHON = ipython3

完了編集保存して終了

ソース〜/ .bashrcに

 

おすすめ

転載: www.cnblogs.com/Ting-light/p/11303594.html