Em primeiro lugar, a alfabetização
Este artigo
ajuda a explicar as seguintes questões:
- O que faísca no fio que?
- Qual é a aplicação pyspark princípio de funcionamento?
- Como aplicação pyspark correndo Yarn?
Em segundo lugar, o real
- O pacote de ambiente de python
cd path_to_python
* Nota que para entrar no próximo diretório do pacote python, caso contrário, o caminho todo (python caminho está localizado) será embalado, tempo depois descompactado, não vai demorar muito python na frente do caminho, pode erro não corretamente parse
zip -r path_to_pythonzip/python_user.zip ./*
- O ambiente python enviados para hdfs
hadoop fs -put python_user.zip
- Modificar Perfil faísca
Faísca-defualts.config arquivo de configuração, carrega o python de tal forma que, durante a faísca a apresentar, automaticamente pacote python para cada ambiente nó de trabalho.cp spark-defaults.conf spark-user.conf # 修改相关配置 spark.yarn.dist.archives path_to_hdfs/python_user.zip#python
* Nota que a última superfície #python não pode ser excluído, ele provavelmente encontrar o caminho python no caminho após a descompressão zip, em seguida, chamado python. Isso envolve a pyspark arquivo de configuração do python pode encontrar o direito
- Modificar o script apresentado
#!bin/bash spark-submit --master yarn \ --driver-memory 4G --executor-memory 12G \ --properties-file conf/spark-user.conf \ --py-files other_dependence.py main.py
, os resultados operacionais terceiros
Basta executá-lo, versão gensim ambiente python saída