pysparkコンフィギュレーション設定

python3.5に注意pysparkのpyspark_pythonで使用するために、あなたは、運用環境にもpython3.5あるべきミリリットル使用することができ、バージョンが同じでなければならない、またはエラーになります。

輸入findspark

findspark.init()

Pd等の輸入パンダ

NPとしてnumpyのインポート

輸入ピクルス

輸入OS

[ "PYSPARK_PYTHON"] = "/home/q/conda/bin/python3.5" はos.environ

pyspark輸入からSparkContext、SparkConf

pyspark.sql輸入SparkSession、SQLContextから

pyspark.ml.featureの輸入HashingTF、IDF、トークナイザ

pyspark.ml輸入パイプライン

pyspark.ml.classificationのインポートNaiveBayes

pyspark.ml.evaluationのインポートMulticlassClassificationEvaluator

[ "PYSPARK_DRIVER_PYTHON"] = "パイソン" はos.environ

#ローカル[20]

#import jieba

#Jieba.initialize()

 

SparkConf confの=()\

    .setAppName( "NLP_Project_youming.guo")\

    .setMaster( "糸")\

    .SET( 'spark.yarn.queue'、 "root.adhoc")\

    .SET( 'spark.yarn.dist.files'、

         'ファイル:/ホーム/ Q /火花/パイソン/ libに/ pyspark.zip、ファイル:/home/q/spark/python/lib/py4j-0.10.4-src.zip ')\

    .setExecutorEnv( 'PYTHONPATH'、 ' pyspark.zip:py4j-0.10.4-src.zip ')\

    .SET( 'PYSPARK_PYTHON'、 '/home/q/conda/bin/python3.5')

conf.set( "spark.executor.memory"、 "5グラム")

conf.set( "spark.driver.memory"、 "10グラム")

conf.set( "spark.executor.cores"、 "2")

conf.set( "spark.dynamicAllocation.maxExecutors"、 "5")

conf.set( "spark.driver.maxResultSize"、 "0")

conf.set( "spark.dynamicAllocation.enabled"、 "真")

conf.set( "spark.shuffle.service.enabled"、 "真")

conf.set( "spark.shuffle.service.port"、 "7338")

SC = SparkContext(= CONF CONF)

sqlContext = SQLContext(SC)

スパーク= SparkSession(SC)

 

おすすめ

転載: www.cnblogs.com/Tw1st-Fate/p/11094344.html