spark源码编译

参考网址:http://spark.apache.org/docs/latest/building-spark.html


由于spark对hadoop版本有一定的依赖,所以建议使用源码来编译,本次编译的版本为:spark2.2。0
由于这次编译需要CDH的HADOOP依赖,解压spark的源码包,编辑pom.xml文件, 在repositories节点 加入如下配置:
<repository>
    <id>cloudera</id>
    <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>


准备:Maven 3.3.9、Java 8+。注意,从2.2.0开始,spark已经移除了java 7


编译命令:mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
 
简单说说参数代表的意思
 -Pyarn:表示需要将spark作业提交至yarn
 -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0:这里是指定了hadoop的版本
 -Phive -Phive-thriftserver:需要支持hive的jcbc
 (如果需要其他参数,可以参考官网)

猜你喜欢

转载自blog.csdn.net/qq_26369213/article/details/79672894