hive on spark与sparkSQl共存 - 代码天地

hive on spark与sparkSQl共存

其他 2020-01-22 12:59:45 阅读次数: 0

背景

需要使用spark脚本读写hive数据
又需要让hive mr引擎使用spark，从而从kettle入口触发hive交互时hive能够用到spark性能

版本依赖

原生apache :

hive 2.3.3
spark 2.1.0
spark 2.1.0-without-hadoop
hadoop 2.6.5

问题所在

因为sparksql使用hive仓库需使用到完整的hive,hdfs依赖包，因此需要使用apache预编译好的hadoop整合包，否则无论在spark-shell环境还是spark-submit提交作业都会报出hive类异常之类的错误

Caused by: java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support

Unable to instantiate SparkSession with Hive support because Hive classes are not found

而使用预编译包，在hive中使用spark引擎的话，又会发生

java.lang.NoSuchFieldError: SPARK_RPC_SERVER_ADDRESS

的错误，这个时候需要非预编译hive的spark工程，相当矛盾。

解决方法

利用spark在driver运行节点classpath下获取相关jars的原理，在hive运行节点使用spark-without-hadoop包。而在yarn nodemanager节点使用spark预编译包，sparksql提交的脚本driver也运行于这几个节点。

节点名称	节点功能	使用部署包	运行说明
master1	主节点	spark-2.1.0-bin-without-hadoop.tgz hive-2.3.3.tar	yarn resourcemanager，hive
master2	主节点备用	spark-2.1.0-bin-without-hadoop.tgz hive-2.3.3.tar	yarn resourcemanager，hive
slave1	运算节点1	spark-2.1.0-bin-hadoop2.6.tgz	yarn nodemanager，使用spark shell/submit
slave2	运算节点2	spark-2.1.0-bin-hadoop2.6.tgz	yarn nodemanager，使用spark shell/submit
slave3	运算节点3	spark-2.1.0-bin-hadoop2.6.tgz	yarn nodemanager，使用spark shell/submit

发布了25 篇原创文章 · 获赞 22 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/fzuzhanghao1993/article/details/90203357

hive on spark与sparkSQl共存

SparkSQL & Spark on Hive & Hive on Spark

sparksql\hive on spark\hive on mr

SparkSQL与Hive on Spark的比较

SparkSQL和hive on Spark

sparkSQL，hive on spark ，thriftserver

SparkSQL & Spark on Hive & Hive on Spark[转载]

sparkSQL---spark整合hive

Hive，Hive on Spark和SparkSQL区别

总结：Hive，Hive on Spark和SparkSQL区别

面试题：Hive on Spark与SparkSql的区别

SparkSQL On Hive和spark的内存分配问题

大数据SparkSQL与Hive on Spark的比较

九十四、Spark-SparkSQL(整合Hive)

Sparksql On Hive（idea与spark-shell）

SparkSQL操作Hive数据仓库(spark-hive_2.11)

hive on spark 与 hive on tez共存，tez-ui配置

Hive & SparkSQL

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数

大数据之Spark（五）--- Spark的SQL模块，Spark的JDBC实现，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

hive on spark

spark on hive

总结：Hive，Hive on Spark和SparkSQL区别 - MrLevo520的博客 - CSDN博客

SparkSql整合Hive,使用idea运行,启动时报:"org.apache.spark.sql.hive.HiveSessionStateBuilder"

spark操作hive（可解决绝大部分的问题）、sparksql操作hive

spark操作hive（可解决绝大部分的问题）、sparksql操作hive

sparksql与hive整合

SparkSQL与Hive集成

MapReduce,hive, sparkcore, sparksql,

Hive到SparkSql

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)