Las similitudes y diferencias entre combineByKey y addedByKey

	combinarPorClave	agregado por clave
diferencia	tiene tres listas de parámetros y no requiere un valor inicial	tiene solo dos listas de parámetros y requiere un valor inicial

El mismo punto : ambos pueden asignar valores clave para el cálculo dentro de la partición y el cálculo entre particiones.

Buceando en el código

agregado por clave

addedByKey tiene dos listas de parámetros
- La primera lista de parámetros: se debe pasar un parámetro, que se expresa como el valor inicial
  . Cuando se encuentra la primera clave, el valor se calcula en la partición.
- La segunda lista de parámetros: se deben pasar 2 parámetros:
  el primer parámetro indica el cálculo dentro de la partición
  y el segundo parámetro indica el cálculo entre las particiones

//aggregateByKey有两个参数列表
//第一个参数列表: zeroValue = 
//	   需要传递一个参数，表示为初始值
//     当碰见第一个key时候，和value进行分区内计算
//第二个参数列表: 
//	   需要传递2个参数:
//     第一个参数表示分区内计算
//     第二个参数表示分区间计算

rdd.aggregateByKey(zeroValue = 0)(
    (x, y) => math.max(x, y),
    (x, y) => x + y
).collect().foreach(println)

combinarPorClave

El método combineByKey toma tres parámetros:
- El primer parámetro: convertir la estructura de los primeros datos de la misma clave para realizar la operación
- El segundo parámetro: la regla de cálculo en la partición.
- El tercer parámetro: la regla de cálculo del intervalo de partición

//combineByKey方法需要三个参数：
//第一个参数: 
// 将相同key的第一个数据进行结构转换，实现操作
//第二个参数: 
// 分区内的计算规则
//第三个参数: 
// 分区间的计算规则

val newRDD: RDD[(String, (Int, Int))] = rdd.combineByKey(
    v => (v, 1),
    (t: (Int, Int), v) => {
    
    
       (t._1 + v, t._2 + 1)
    },
    (t1 Int: , t2: Int) => {
    
    
       (t1._1 + t2._1, t1._2 + t2._2)   
    }
)

Programación Spark: similitudes y diferencias entre combineByKey y addedByKey

Las similitudes y diferencias entre combineByKey y addedByKey

Buceando en el código

agregado por clave

combinarPorClave

Supongo que te gusta