SparkRDD之cartesian - 代码天地

SparkRDD之cartesian

其他 2018-08-17 09:53:22 阅读次数: 0

计算两个RDD之间的笛卡尔积（即第一个RDD的每个项与第二个RDD的每个项连接）并将它们作为新的RDD返回。（警告：使用此功能时要小心。！内存消耗很快就会成为问题！）

java示例如下：

package com.cb.spark.sparkrdd;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

public class CartesianExample {
	public static void main(String[] args) {
		SparkConf conf = new SparkConf().setAppName("Cartesian").setMaster("local");
		JavaSparkContext jsc = new JavaSparkContext(conf);
		JavaRDD<Integer> javaRDD = jsc.parallelize(Arrays.asList(1, 2, 3, 4, 5));
		JavaRDD<Integer> javaRDD1 = jsc.parallelize(Arrays.asList(6, 7, 8, 9, 10));
		JavaPairRDD<Integer, Integer> cartesianRDD = javaRDD.cartesian(javaRDD1);
		cartesianRDD.foreach(x->System.out.println(x));
		
		jsc.stop();
	}
}

scala示例如下：

package com.cb.spark.core

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object Cartesian {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("Aggregate")
      .setMaster("local")
    val sc = new SparkContext(conf)
    val z = sc.parallelize(List("a", "b", "c", "d", "e", "f"), 2)
    val y = sc.parallelize(List("1", "2", "3"))
    val zy = z.cartesian(y);

    val x = sc.parallelize(List(1, 2, 3))
    val zx = z.cartesian(x)
    zy.foreach(println)
    zx.foreach(print)
    sc.stop()
  }
}

猜你喜欢

转载自blog.csdn.net/u013230189/article/details/81659963

SparkRDD之cartesian

SparkRDD之combineByKey

SparkRDD之collectAsMap

SparkRDD之checkpoint

SparkRDD之aggregateByKey

SparkRDD之aggregate

sparkRDD

Spark学习笔记之SparkRDD

SparkRDD之countApproxDistinct和countApproxDistinctByKey

SparkRDD之cogroup和groupWith

SparkRDD之countByKey和countByValue

SparkRDD之coalesce和repartition

SparkRDD之mapPartitions和mapPartitionsWithIndex

SparkRDD之弹性分布式数据集RDD

Cartesian product

SparkRDD 练习

开源三维GIS之Cesium的Cartesian3(三)

18.12.20 DSA Cartesian Tree

OpenJudge Cartesian Tree

[SGU 155] Cartesian Tree

POJ 2201 Cartesian Tree

SparkRDD编程实战

SparkRDD函数详解

SparkRDD简单理解

SparkRDD Operations(一)

sparkRdd driver和excuter

SparkRDD算子初识

SparkRDD版的Wordcount求和

SparkRDD缓存机制

SparkRDD的介绍JAVAAPI操作

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)