如何理解图?
我们直到,树中的元素我们称为节点,图中的元素我们就叫作顶点(vertex)。从画的图中知道,图中的一个顶点可以与任意其他顶点建立连接关系,我们把这种关系叫作边(edge)。
我们日常生活中的社交网络,就是一个很典型的图的应用。比如微信,我们把每一个用户看成一个顶点。如果两个用户之间相互添加好友,那就在两者之间建立一条边。其中,每个用户有多少个好友,对应到图中,就叫作顶点的度 (degree),就是跟顶点相互连接的边的个数。
实际上,微博的社交关系跟微信不一样。微博允许单向关注,也就是说,A用户关注了用户B,但是用户B可以不关注用户A。这时候我们可以对图引入边的方向的概念。
如果用户A关注了用户B,我们就在图中画一条从A到B的带箭头的边,来表示边的方向。如果用户A和用户B互相关注,我们就画一条从A指向B的边,再画一条B指向A的边。这种有方向的图我们叫作“有向图”,同理,把没有方向的图叫作“无向图”。
在有向图中,我们把度分成入度(in-degree)和出度(out-degree) 。
顶点的入度,表示有多少条边指向这个顶点,顶点的出度表示该顶点有多少条边指向别的顶点。对应与微博,入度就表示有多少粉丝,出度就表示关注了多少人。
我们再来讲讲QQ。QQ不仅记录了用户之间的友好关系,还记录了两个用户之间的亲密度,如果两个用户经常往来,亲密度就比较高,如果两个用户不经常往来,那亲密度就比较低。
这里就要使用另一种图,带权图(weighted graph)。
在带权图中,每条边都有一个权重,我们可以通过这个权重来表示QQ好友的亲密度。
如何存储一个图?
1.邻接矩阵储存方法
邻接矩阵的底层依赖一个二维数组,对于无向图来说,如果顶点 i 与顶点 j 之间有边,我们就将A[i][j] 和 A[j][i] 标记为1;对于有向图来说,如果顶点 i 到顶点 j 之间,有一条箭头从顶点 i 指向顶点j 的边,那我们就将A[i][j] 标记为1。对于带权图,数组中存储对应的权重。
用邻接矩阵简单,直观,但却比较浪费储存空间。
对于无向图来说, 其实上三角以及下三角是一样的,因此我们只需要一个上三角或者一个下三角就行了。另外,如果我们储存的是稀疏图,就是说,顶点很多,但是每个顶点的边并不多,那邻接矩阵的储存方法就更加浪费空间。
但这也不是说,邻接矩阵的存储方法就没有优点。首先,邻接矩阵的储存方式简单,直接,因为基于数组,所以在获取两个顶点的关系,就非常高效。其次,用邻接矩阵储存图的另外一个好处就是方便计算。因为,用邻接矩阵的方式储存图,可以将很多图的运算转换成矩阵之间的运算。
2.邻接表储存方法
每个顶点对应一条链表,链表中储存的是与这个顶点相连接的其他顶点。不过,图中画的是一个有向图的邻接表储存方式,每个顶点对应的链表里面,储存的是指向的顶点。 对于无向图来说,也只是类似的。不过,每个顶点的链表中储存的,是跟这个顶点有边相连的顶点。
邻接矩阵储存起来比较浪费空间,但是使用起来比较节省时间。相反,邻接表储存起来比较节省空间,但是使用起来比较耗时间。
就像图中的例子,如果我们要确定,是否存在一条从顶点2到顶点4的边,那我们就要遍历顶点2对应的那条链表,看链表中是否存在顶点4。而且,我们前面也讲过,链表的存储方式对缓存不友好。所以,比起邻接矩阵的储存方式,在邻接表中查询两个顶点之间的关系就没有那么高效了。
实际上,为了提高查找效率,我们可以将链表换成其他更加高效的数据结构,比如红黑树,跳表等。除此之外,我们还可以将链表改成有序动态数组,可以通过二分查找的方法来快速定位两个顶点之间是否有边。
这里给出的是无向图的实现:
class Graph{
private:
int max_v;
vector<int>* adj;
public:
Graph(int mv){
max_v = mv;
adj = new vector<int>[mv];
}
void add_dir_Edge(int s,int t){
adj[s].push_back(t);
}
void add_Nodir_Edge(int s,int t){
adj[s].push_back(t);
adj[t].push_back(s);
}
void print(){
for(int i=0;i<max_v;++i){
size_t size = adj[i].size();
if(size != 0){
for(int j=0;j<size;++j){
cout << i << "->" << adj[i][j]<< " ";
}
cout << endl;
}
}
}
};
如果需要有权值的图,则需要定义一个结构体,里面是数据和权值。
struct node{
int data;
int weight;
};
如果存储的不是整数怎么办?我猜想是用哈希算法,得到一个下标。
如何存储微博社交网络中的好友关系?
针对微博用户,假设我们需要支持下面这几个操作:
- 判断用户A是否关注了用户B
- 判断用户A是否是用户B的粉丝
- 用户A关注用户B
- 用户A取消关注用户B
- 根据用户名称的首字母排序,分页获取用户的粉丝列表
- 根据用户名的首字母排序,分页获取用户的关注列表
由于这里的图是一个稀疏图,因此我们选择邻接表的方法来储存。不过,用一个邻接表来储存这种有向图是不够的,我们去查找某个用户关注了哪些用户非常容易,但是如果要知道某个用户被哪些用户关注了,也就是用户的粉丝列表,是非常困难的。基于此,我们需要一个逆邻接表。邻接表中存储了用户的关注关系,逆邻接表储存的是用户的被关注关系。如果要查找某个用户关注了哪些用户,我们可以在邻接表中查找;如果要查找某个用户被哪些用户关注了,我们从逆邻接表中查找。
基础的邻接表不适合快速判断两个用户之间的关系,所以我们选择改进版本,将邻接表中链表改为支持快速查找的动态数据结构。是红黑树,还是跳表,还是有序数组,或者是散列表?
因为我们需要按照用户名称的首字母排序,分页来获取用户的粉丝列表或者关注列表。那么用跳表来实现最好了。因为,跳表插入,删除,查找非常高效,时间复杂度是O(logn)。空间复杂度是O(n)。最重要的一点是,跳表中国胡促成你的数据本来就是有序的了,分页获取粉丝列表或者关注列表,就很高效。
对于小规模的数据,比如社交网络只有几万,几十万个用户,我们可以直接将整个社交网络储存在内存中,上面的解决思路是没有问题的。但是如果微博有上亿的用户,怎么办呢?
我们可以通过哈希算法将数据分片,将邻接表储存在不同的机器上。
当要查询顶点与顶点之间的关系的时候,我们就利用同样的哈希算法,先定位顶点所在的机器,然后再在相应的机器上。