记spark2.3.x的一个bug

编程语言 2019-01-23 09:30:51 阅读次数: 0

背景

在做spark重构代码的时候，账号的二期的有些计算，使用了sparkSQL，这个时候，发现要进行多次的left join，考虑效率问题，提出重分区：

 val price =
      s"""
         |select
         |identify_id,weibo_type,price_info
         |from dm_account.hogwarts_account
         |where identify_id is not null AND weibo_type is not null AND price_info is not null
         |""".stripMargin
    val priceTable = "industry_" + seqNum
    val priceDF = sparkSession.sql(price)
      .withColumn("platform_type", getIdOrPlatform(col("weibo_type"), lit("platform")))
      .withColumn("price", getPriceFromPriceInfo(col("price_info")).cast(DoubleType))
      .filter(s"price is not null AND price >0 AND platform_type is not null AND ${platformFilter}")
      .select("identify_id", "platform_type", "price").toDF()
      .repartition(20) //2.3.x有bug
      .createTempView(priceTable)

注意使用的repartition函数，看重载，应该有如下方式：
def repartition(numPartitions: Int, partitionExprs: Column): Dataset[T]*

但是死活运行不了，报错：At least one partition-by expression must be specified
看源码：

2.3.x

/**
   * Returns a new Dataset partitioned by the given partitioning expressions into
   * `numPartitions`. The resulting Dataset is range partitioned.
   *
   * At least one partition-by expression must be specified.
   * When no explicit sort order is specified, "ascending nulls first" is assumed.
   * Note, the rows are not sorted in each partition of the resulting Dataset.
   *
   * @group typedrel
   * @since 2.3.0
   */
  @scala.annotation.varargs
  def repartitionByRange(numPartitions: Int, partitionExprs: Column*): Dataset[T] = {
    require(partitionExprs.nonEmpty, "At least one partition-by expression must be specified.")
    val sortOrder: Seq[SortOrder] = partitionExprs.map(_.expr match {
      case expr: SortOrder => expr
      case expr: Expression => SortOrder(expr, Ascending)
    })
    withTypedPlan {
      RepartitionByExpression(sortOrder, planWithBarrier, numPartitions)
    }
  }

原来是2.3.x引入了新的底层实现，把pom改成2。2.2解决问题。

猜你喜欢

转载自blog.csdn.net/qq1226317595/article/details/86604550

记spark2.3.x的一个bug

spark 2.3 导致driver OOM的一个SparkPlanGraphWrapper源码的bug

记一个bug

记一个神奇的Bug

记一个输入缓冲bug

记一个flink 1.11.0的bug

【bug】记一个有趣的“bug”

记网站部署中一个奇葩BUG

【记】一个开发漏掉、测试没注意的BUG！

记 QGraphicsView 中一个 bug 的 workaround

记一个界面刷新相关的Bug

记一个bug：ImportError: cannot import name ‘comb‘

记一个折磨了我一天半的 Bug

记一次EditText设置默认选中setSelection的一个bug

Grails 2.5.0/2.4.5 升级历险记 & JAVA7/8的一个小bug

记Dagger2使用过程中的一个BUG--compileGoogleDebugJavaWithJavac

vue的bind指令，“取代”jQuery的选择器。——(）记一个小bug

记Caffe版本的mtcnn进行训练时的一个隐形的BUG

记一个关于 Select 的小 bug：Select 的 on-change 事件会自动触发

“在注释中遇到意外的文件结束”--记一个令人崩溃的bug

【Error】记一个快速排除bug的思路：ASan log中没符号

记联想SR850 Raid配置的一个bug

记一个ingress和kong公用导致的k8s的显示bug

工作填坑记，关于Socket的一个大BUG

工作填坑记，关于URLConnection的一个大BUG

记一个 Base64 有关的 Bug

查BUG笔记-记一个白痴问题-wrong vector::_M_range_check

记一个在linux下编程容易被忽视的小bug

一个奇怪的bug

hive的一个bug?

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)