Spark on Hive / 为什么spark-sql比hive慢?

Spark 2.3.0 与 hive 1.2.2的整合

1.拷贝$HIVE_HOME/conf/hive-site.xml到$SPARK_HOME/conf

可通过建立软连接

 ln -s /work/install/apache-hive-1.2.2-bin/conf/hive-site.xml hive-site.xml


2.在$SPARK_HOME/conf目录中,修改spark-env.sh,添加

export HIVE_HOME=/work/install/apache-hive-1.2.2-bin

export SPARK_CLASSPATH=$SPARK_CLASSPATH:$HIVE_HOME/lib/mysql-connector-java-5.1.18.jar

3.可设置一下Spark的log4j配置文件,使得屏幕不打印INFO信息:

log4j.rootCategory=WARN,console

4.进入$SPARK_HOME/bin执行spark-sql:


对比hive。怎么spark-sql比hive慢很多?!



顺便在这里贴一下spark-env.sh的配置:


关于这个环境变量,

1.查看某个环境变量:

[bg@BG01 conf]$ echo $HIVE_HOME

/work/install/apache-hive-1.2.2-bin

2.设置环境变量:

[bg@BG01 conf]$ export zhang="ming"
[bg@BG01 conf]$ echo $zhang

ming

3.查看所有环境变量:


4.清除某个环境变量:

[bg@BG01 conf]$ unset zhang
[bg@BG01 conf]$ echo $zhang




猜你喜欢

转载自blog.csdn.net/yblbbblwsle/article/details/80744064
今日推荐