2 Spark入门reduce、reduceByKey的操作 - 代码天地

2 Spark入门reduce、reduceByKey的操作

其他 2018-05-31 00:07:14 阅读次数: 0

上一篇是讲map，map的主要作用就是替换。reduce的主要作用就是计算。

package reduce;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;
import scala.Tuple2;

import java.util.Arrays;
import java.util.List;

/**
 * @author wuweifeng wrote on 2018/4/13.
 */
public class SimpleReduce {
    public static void main(String[] args) {
        SparkSession sparkSession = SparkSession.builder().appName("JavaWordCount").master("local").getOrCreate();
        //spark对普通List的reduce操作
        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkSession.sparkContext());
        List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
        JavaRDD<Integer> originRDD = javaSparkContext.parallelize(data);

        Integer sum = originRDD.reduce((a, b) -> a + b);
        System.out.println(sum);

        //reduceByKey，按照相同的key进行reduce操作
        List<String> list = Arrays.asList("key1", "key1", "key2", "key2", "key3");
        JavaRDD<String> stringRDD = javaSparkContext.parallelize(list);
        //转为key-value形式
        JavaPairRDD<String, Integer> pairRDD = stringRDD.mapToPair(k -> new Tuple2<>(k, 1));
        List list1 = pairRDD.reduceByKey((x, y) -> x + y).collect();
        System.out.println(list1);
    }
}

代码很简单，第一个就是将各个数累加。reduce顺序是1+2，得到3，然后3+3，得到6，然后6+4，依次进行。

第二个是reduceByKey，就是将key相同的键值对，按照Function进行计算。代码中就是将key相同的各value进行累加。结果就是[(key2,2), (key3,1), (key1,2)]

猜你喜欢

转载自blog.csdn.net/tianyaleixiaowu/article/details/79926041

2 Spark入门reduce、reduceByKey的操作

Spark入门（五）--Spark的reduce和reduceByKey

Spark中reduce和reducebykey

spark reduceByKey和reduce区别

spark中reduce和reduceByKey的区别

【Spark系列2】reduceByKey和groupByKey区别与用法

Spark API 详解/大白话解释之 reduce、reduceByKey

Spark入门2

Spark 快速入门（2）

spark reduceByKey

reduce、reduceByKey详解

reduce和reduceByKey的区别

reduce和reduceByKey区别

【Spark Streaming】2、Kafka入门

Python使用map,reduce高阶函数模拟实现Spark的reduceByKey算子功能

spark重点：join操作之昂贵，先reduceByKey

Spark之【SparkSQL编程】系列(No2)——《DataSet概念入门以及与DataSet的互操作》

Spark之【SparkSQL编程】系列(No2)——《DataSet概念入门以及与DataSet的互操作》

spark transform系列__reduceByKey

Spark算子reduceByKey

Spark之reduceByKey与GroupByKey

spark:reducebykey与groupbykey的区别

第2章 Spark下载和入门

spark(2)

spark-steaming的2种操作

spark2的transformation和action操作

Spark Sql教程(2）———DataFrame基本操作

【Python】reduce()--2

Spark2.x学习笔记：Spark SQL快速入门

2 Spark机器学习 spark MLlib Statistics统计入门

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

周排行

mongodb 下载与安装与初步使用

20190530

iOS录制回放神器AutoTouch使用介绍

同心圆猜数字游戏

mamp pro安装redis扩展各个步骤截图

windows10下安装docker报错：error during connect

跨域授权 Federated Identity Pattern

js时间比较大小

pandas to_csv()使用方法

从JDK源码角度看Byte

每日归档

更多

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)