SparkSQL编程之自定义聚合函数（强类型） - 代码天地

SparkSQL编程之自定义聚合函数（强类型）

编程语言 2019-05-14 09:00:51 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/90199348

强类型用户自定义聚合函数：通过继承Aggregator来实现强类型自定义聚合函数，

import org.apache.spark.sql.expressions.Aggregator
import org.apache.spark.sql.Encoder
import org.apache.spark.sql.Encoders
import org.apache.spark.sql.SparkSession
// 既然是强类型，可能有case类
case class Employee(name: String, salary: Long)
case class Average(var sum: Long, var count: Long)

object MyAverage extends Aggregator[Employee, Average, Double] {
// 定义一个数据结构，保存工资总数和工资总个数，初始都为0
def zero: Average = Average(0L, 0L)
// Combine two values to produce a new value. For performance, the function may modify `buffer`
// and return it instead of constructing a new object
def reduce(buffer: Average, employee: Employee): Average = {
buffer.sum += employee.salary
buffer.count += 1
buffer
}
// 聚合不同execute的结果
def merge(b1: Average, b2: Average): Average = {
b1.sum += b2.sum
b1.count += b2.count
b1
}
// 计算输出
def finish(reduction: Average): Double = reduction.sum.toDouble / reduction.count
// 设定之间值类型的编码器，要转换成case类
// Encoders.product是进行scala元组和case类转换的编码器 
def bufferEncoder: Encoder[Average] = Encoders.product
// 设定最终输出值的编码器
def outputEncoder: Encoder[Double] = Encoders.scalaDouble
}

import spark.implicits._

val ds = spark.read.json("examples/src/main/resources/employees.json").as[Employee]
ds.show()
// +-------+------+
// |   name|salary|
// +-------+------+
// |Michael|  3000|
// |   Andy|  4500|
// | Justin|  3500|
// |  Berta|  4000|
// +-------+------+

// Convert the function to a `TypedColumn` and give it a name
val averageSalary = MyAverage.toColumn.name("average_salary")
val result = ds.select(averageSalary)
result.show()
// +--------------+
// |average_salary|
// +--------------+
// |        3750.0|
// +--------------+

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/90199348

SparkSQL编程之自定义聚合函数（强类型）

SparkSQL编程之自定义聚合函数（弱类型）

SparkSQL编程之用户自定义函数

sparkSQL 自定义UDAF函数（强类型的方式）spark3.x

sparkSQL自定义聚合函数（UDAF）实现bitmap函数

sparksql用户自定义函数（UDF和聚合函数）

SparkSQL之用户自定义聚合函数

SparkSQL用户自定义聚合函数UDAF（新）

SparkSQL用户自定义聚合函数UDAF

SparkSQL自定义函数

弱类型和强类型自定义UDAF函数

大数据学习之路90-sparkSQL自定义聚合函数UDAF

047 SparkSQL自定义UDF函数

048 SparkSQL自定义UDAF函数

SparkSQL中的自定义函数UDF

sparksql 自定义用户函数（UDF）

SparkSQL用户自定义UDF函数

SparkSQL(四)——用户自定义函数

SparkSQL 自定义函数UDF与UDAF

SparkSQL用户自定义函数

SparkSQL-自定义函数

SparkSQL自定义UDF函数

sparkSQL 自定义UDF函数

SparkSQL学习（二）SparkSQL的自定义函数UDF

SparkSql用户自定义函数（UDF函数）

SparkSQL的内置函数与自定义函数【转载】

Oracle 自定义聚合函数

access实现自定义聚合函数

pyspark 自定义聚合函数 UDAF

calcite 自定义聚合函数写法

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)