GraphX之Connected Components算法

其他 2021-02-28 02:32:04 阅读次数: 0

在Spark Graphx的org.apache.spark.graphx.lib包中有一些常用的图算法，其中一个就是Connected Components，本文将会介绍此算法的使用方法，下面是spark 1.6.3源码中对这个算法的注释：

Compute the connected component membership of each vertex and return a graph with the vertex value containing the lowest vertex id in the connected component containing that vertex.

Demo

首先准备数据源

links.csv

1,2,friend
1,3,sister
2,4,brother
3,2,boss
4,5,client
1,9,friend
6,7,cousin
7,9,coworker
8,9,father
10,11,colleague
10,12,colleague
11,12,colleague

people.csv

4,Dave,25
6,Faith,21
8,Harvey,47
2,Bob,18
1,Alice,20
3,Charlie,30
7,George,34
9,Ivy,21
5,Eve,30
10,Lily,35
11,Helen,35
12,Ann,35

图结构

在这里插入图片描述
样例
经过connectedComponents得到的结果，可以知道哪些顶点在一个连通图中，这样就可以将一个大图拆分成若干个连通子图。

	import org.apache.spark.graphx._

	val peopleRDD=people.map(x=>x.split(",")).map(x=>(x(0).toLong,Person(x(1),x(2).toInt)))
	val linkRDD=links.map(x=>{
    
    val row=x.split(",");Edge(row(0).toLong,row(1).toLong,row(2))})
	val graph=Graph(peopleRDD,linkRDD)
    
	val cc=graph.connectedComponents
	val newGraph = cc.outerJoinVertices(peopleRDD)((id,mincc,people)=>(mincc,people.get.name,people.get.age))

cc.vertices.map(_._2).collect.distinct.foreach(id=>{
    
    
val sub=newGraph.subgraph(vpred=(id1,prop)=>prop._1==id)
sub.triplets.collect.foreach(println)
println()})

结果得到了两个子图，输出为：

((1,(1,Alice,20)),(2,(1,Bob,18)),friend)
((1,(1,Alice,20)),(3,(1,Charlie,30)),sister)
((1,(1,Alice,20)),(9,(1,Ivy,21)),friend)
((2,(1,Bob,18)),(4,(1,Dave,25)),brother)
((3,(1,Charlie,30)),(2,(1,Bob,18)),boss)
((4,(1,Dave,25)),(5,(1,Eve,30)),client)
((6,(1,Faith,21)),(7,(1,George,34)),cousin)
((7,(1,George,34)),(9,(1,Ivy,21)),coworker)
((8,(1,Harvey,47)),(9,(1,Ivy,21)),father)

((10,(10,Lily,35)),(11,(10,Helen,35)),colleague)
((10,(10,Lily,35)),(12,(10,Ann,35)),colleague)
((11,(10,Helen,35)),(12,(10,Ann,35)),colleague)

猜你喜欢

转载自blog.csdn.net/qq_42578036/article/details/110200058

GraphX之Connected Components算法

Spark GraphX算法 - Connected Components（连通分支）算法

Spark内置算法：Connected Components和Triangle Counting

Spark之GraphX案例-PageRank算法与分析

Codeforces - Connected Components

E. Connected Components?

E. Connected Components （BFS ）

Connected Components (邻接表dfs)

图论学习六之Strongly connected components强连通分量

323. Number of Connected Components in an Undirected Graph

ALDS1_11_D:Connected Components

强连通分量(strongly connected components)

CodeForces - 920E_Connected Components? 模拟

Connected Components? CodeForces - 920E

Number of Connected Components UVALive - 7638 （并查集）

1013 Battle Over Cities（Connected Components / BFS）

CF920E Connected Components?

codeforces 920 E.Connected Components?

强连通分量（Strongly Connected Components）

[CF920E] Connected Components?

CloudCompare功能介绍-Label Connected Components

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例

Spark GraphX算法 - Pregel算法

Spark GraphX算法 - PageRank算法

Connected Components Workbench 1.02 在Win2003下安装

323. Number of Connected Components in an Undirected Graph (leetcode)

F - Number of Connected Components UVALive - 7638 (并查集 + 思维)

Connected Components? CodeForces - 920E (图论,模拟)

Codeforces 920E-Connected Components? （set，补图，连通块）

CodeForces 920 E.Connected Components? (set+bfs)

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)