【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描(执行SparkSQL程序查询Hive数据时,开启动态资源分配导致分配资源过大,程序无法执行)

问题描述:

SparkSQL 访问 Hive 分区数据时,会先对全表进行扫描,所以一旦 Hive 单表数据量过大,会导致申请的资源过多,程序一直请求不到资源,任务挂掉。

解决方式:(防止查询分区数据时对全表进行扫描)

SparkSession.sql("set spark.sql.hive.caseSensitiveInferenceMode=NEVER_INFER")

猜你喜欢

转载自blog.csdn.net/weixin_53543905/article/details/130639012
今日推荐