join/cogroup示例 - 代码天地

join/cogroup示例

其他 2018-12-04 02:49:32 阅读次数: 0

package com.ws.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object JoinTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("JoinTest")

    val sc = new SparkContext(conf)

    val data1 = List(("1", "baby"), ("1", "baby"), ("2", "dog"),("3","fire"),("4","mouse"))
    val data2 = List(("5", "rabbit"), ("1", "baby"), ("2", "dog"),("3","fire"),("5","rabbit"))

    val RDD1 = sc.parallelize(data1)
    val RDD2 = sc.parallelize(data2)

    //join算子底层采用cogroup,然后计算笛卡尔积
    val resultData: RDD[(String, (String, String))] = RDD1.join(RDD2)

    //cogroup :: 把两边RDD相同key的value值抽取出来,形成2个迭代器,一个是装第一个RDD的value值,另一个是装第二个RDD的value值
    //  然后形成一个元组(key,(value1,value2)),key还是原来的key,value*是每个RDD的value值,是迭代器
    //join算子其实就是将 value1,value2两两操作,假设value1迭代器值为(1,2),value2迭代器为(2,3),那么join的结果为
    //(1,2),(1,3),(2,2),(2,3)
    //如果一方不存在这个相同的key,那么将不会有结果
    val value: RDD[(String, (Iterable[String], Iterable[String]))] = RDD1.cogroup(RDD2)

    for (i <- value){
      println(i)
      for (j <- i._2._1;k <- i._2._2){
        println(s"($j,$k)")
      }
    }

    println(resultData.collect.toBuffer)

    sc.stop()


  }

}

(5,(CompactBuffer(),CompactBuffer(rabbit, rabbit)))
(2,(CompactBuffer(dog),CompactBuffer(dog)))
(3,(CompactBuffer(fire),CompactBuffer(fire)))
(4,(CompactBuffer(mouse),CompactBuffer()))
(1,(CompactBuffer(baby, baby),CompactBuffer(baby)))
(baby,baby)
(dog,dog)
(fire,fire)
(baby,baby)
ArrayBuffer((1,(baby,baby)), (1,(baby,baby)), (2,(dog,dog)), (3,(fire,fire)))

猜你喜欢

转载自blog.csdn.net/bb23417274/article/details/84728651

join/cogroup示例

spark:join与cogroup

spark groupbykey、join、cogroup算子的区别

Spark算子：transformation之键值转换join、cogroup

3.3 Spark RDD 键值转换操作4-cogroup、join

Flink学习笔记：Operators之CoGroup及Join操作

Flink项目学习笔记之——Operators之CoGroup及Join操作

用JAVA简单实现Spark转换算子实例（reduceByKey,sortByKey,join,cogroup）

Key-Value类型RDD转换算子2——sortByKey、mapValues、join & cogroup

java join()用法示例

SQL JOIN用法示例

PySpark SQL join示例

Java Thread join示例与详解

Operator_cogroup

spark函数讲解：cogroup

spark cogroup算子

spark中cogroup用法

MySQL中的RIGHT JOIN和CROSS JOIN详解及示例

mapred代码示例--reduce端join

mapred代码示例--map端join

Java多线程--join方法使用示例

（线程二）interrupt、setPriority、join方法示例

Linq TO EF 联合查询JOIN简单示例

mysql join查询图示加示例

MySQL中LEFT JOIN的底层实现及示例

mysql的JOIN用法详解-附带查询示例

Spark API 之 cogroup 使用

SparkRDD之cogroup和groupWith

pig基本语法——group cogroup

SQL中JOIN和UNION区别、用法及示例介绍

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

周排行

010-题目：利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。

接口测试-工作心得记录八（使用locust库书写接口并发）

物理分页和逻辑分页

Hive建表语句详解--CREATE TABLE

爬虫学习----学习get和post请求

PDF生成类库

POJ 2139

前端路由基本原理

I/O多路转接之epoll

.NET开源项目 QuarkDoc 一款自带极简主义属性的文档管理系统

每日归档

更多

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)