Depois do método de apresentação utilizando o ambiente pyspark pitão especificado

Em primeiro lugar, a alfabetização

Este artigo ajuda a explicar as seguintes questões:
  1. O que faísca no fio que?
  2. Qual é a aplicação pyspark princípio de funcionamento?
  3. Como aplicação pyspark correndo Yarn?

Em segundo lugar, o real

  • O pacote de ambiente de python
cd path_to_python
* Nota que para entrar no próximo diretório do pacote python, caso contrário, o caminho todo (python caminho está localizado) será embalado, tempo depois descompactado, não vai demorar muito python na frente do caminho, pode erro não corretamente parse
zip -r path_to_pythonzip/python_user.zip ./*
  • O ambiente python enviados para hdfs
hadoop fs -put python_user.zip 
  • Modificar Perfil faísca
Faísca-defualts.config arquivo de configuração, carrega o python de tal forma que, durante a faísca a apresentar, automaticamente pacote python para cada ambiente nó de trabalho.
cp spark-defaults.conf  spark-user.conf

# 修改相关配置
spark.yarn.dist.archives path_to_hdfs/python_user.zip#python

* Nota que a última superfície #python não pode ser excluído, ele provavelmente encontrar o caminho python no caminho após a descompressão zip, em seguida, chamado python. Isso envolve a pyspark arquivo de configuração do python pode encontrar o direito

 

  • Modificar o script apresentado
#!bin/bash
spark-submit --master yarn \
--driver-memory 4G --executor-memory 12G \
--properties-file conf/spark-user.conf \
--py-files other_dependence.py main.py

, os resultados operacionais terceiros

Basta executá-lo, versão gensim ambiente python saída

Publicado 120 artigos originais · Louvor obteve 35 · vista 170 000 +

Acho que você gosta

Origin blog.csdn.net/u012328476/article/details/78894669
Recomendado
Clasificación