python3.5に注意pysparkのpyspark_pythonで使用するために、あなたは、運用環境にもpython3.5あるべきミリリットル使用することができ、バージョンが同じでなければならない、またはエラーになります。
輸入findspark
findspark.init()
Pd等の輸入パンダ
NPとしてnumpyのインポート
輸入ピクルス
輸入OS
[ "PYSPARK_PYTHON"] = "/home/q/conda/bin/python3.5" はos.environ
pyspark輸入からSparkContext、SparkConf
pyspark.sql輸入SparkSession、SQLContextから
pyspark.ml.featureの輸入HashingTF、IDF、トークナイザ
pyspark.ml輸入パイプライン
pyspark.ml.classificationのインポートNaiveBayes
pyspark.ml.evaluationのインポートMulticlassClassificationEvaluator
[ "PYSPARK_DRIVER_PYTHON"] = "パイソン" はos.environ
#ローカル[20]
#import jieba
#Jieba.initialize()
SparkConf confの=()\
.setAppName( "NLP_Project_youming.guo")\
.setMaster( "糸")\
.SET( 'spark.yarn.queue'、 "root.adhoc")\
.SET( 'spark.yarn.dist.files'、
'ファイル:/ホーム/ Q /火花/パイソン/ libに/ pyspark.zip、ファイル:/home/q/spark/python/lib/py4j-0.10.4-src.zip ')\
.setExecutorEnv( 'PYTHONPATH'、 ' pyspark.zip:py4j-0.10.4-src.zip ')\
.SET( 'PYSPARK_PYTHON'、 '/home/q/conda/bin/python3.5')
conf.set( "spark.executor.memory"、 "5グラム")
conf.set( "spark.driver.memory"、 "10グラム")
conf.set( "spark.executor.cores"、 "2")
conf.set( "spark.dynamicAllocation.maxExecutors"、 "5")
conf.set( "spark.driver.maxResultSize"、 "0")
conf.set( "spark.dynamicAllocation.enabled"、 "真")
conf.set( "spark.shuffle.service.enabled"、 "真")
conf.set( "spark.shuffle.service.port"、 "7338")
SC = SparkContext(= CONF CONF)
sqlContext = SQLContext(SC)
スパーク= SparkSession(SC)