数据结构与算法之美(笔记15)图的表示

如何理解图?

我们直到,树中的元素我们称为节点,图中的元素我们就叫作顶点(vertex)。从画的图中知道,图中的一个顶点可以与任意其他顶点建立连接关系,我们把这种关系叫作(edge)。

我们日常生活中的社交网络,就是一个很典型的图的应用。比如微信,我们把每一个用户看成一个顶点。如果两个用户之间相互添加好友,那就在两者之间建立一条边。其中,每个用户有多少个好友,对应到图中,就叫作顶点的 (degree),就是跟顶点相互连接的边的个数。

 实际上,微博的社交关系跟微信不一样。微博允许单向关注,也就是说,A用户关注了用户B,但是用户B可以不关注用户A。这时候我们可以对图引入边的方向的概念。

如果用户A关注了用户B,我们就在图中画一条从A到B的带箭头的边,来表示边的方向。如果用户A和用户B互相关注,我们就画一条从A指向B的边,再画一条B指向A的边。这种有方向的图我们叫作“有向图”,同理,把没有方向的图叫作“无向图”。

在有向图中,我们把度分成入度(in-degree)和出度(out-degree) 。

顶点的入度,表示有多少条边指向这个顶点,顶点的出度表示该顶点有多少条边指向别的顶点。对应与微博,入度就表示有多少粉丝,出度就表示关注了多少人。

我们再来讲讲QQ。QQ不仅记录了用户之间的友好关系,还记录了两个用户之间的亲密度,如果两个用户经常往来,亲密度就比较高,如果两个用户不经常往来,那亲密度就比较低。

这里就要使用另一种图,带权图(weighted graph)。

在带权图中,每条边都有一个权重,我们可以通过这个权重来表示QQ好友的亲密度。

如何存储一个图?

1.邻接矩阵储存方法

 邻接矩阵的底层依赖一个二维数组,对于无向图来说,如果顶点 i 与顶点 j 之间有边,我们就将A[i][j] 和 A[j][i] 标记为1;对于有向图来说,如果顶点 i 到顶点 j 之间,有一条箭头从顶点 i 指向顶点j 的边,那我们就将A[i][j] 标记为1。对于带权图,数组中存储对应的权重。

用邻接矩阵简单,直观,但却比较浪费储存空间。

对于无向图来说, 其实上三角以及下三角是一样的,因此我们只需要一个上三角或者一个下三角就行了。另外,如果我们储存的是稀疏图,就是说,顶点很多,但是每个顶点的边并不多,那邻接矩阵的储存方法就更加浪费空间。

但这也不是说,邻接矩阵的存储方法就没有优点。首先,邻接矩阵的储存方式简单,直接,因为基于数组,所以在获取两个顶点的关系,就非常高效。其次,用邻接矩阵储存图的另外一个好处就是方便计算。因为,用邻接矩阵的方式储存图,可以将很多图的运算转换成矩阵之间的运算。

2.邻接表储存方法

每个顶点对应一条链表,链表中储存的是与这个顶点相连接的其他顶点。不过,图中画的是一个有向图的邻接表储存方式,每个顶点对应的链表里面,储存的是指向的顶点。 对于无向图来说,也只是类似的。不过,每个顶点的链表中储存的,是跟这个顶点有边相连的顶点。

邻接矩阵储存起来比较浪费空间,但是使用起来比较节省时间。相反,邻接表储存起来比较节省空间,但是使用起来比较耗时间。

就像图中的例子,如果我们要确定,是否存在一条从顶点2到顶点4的边,那我们就要遍历顶点2对应的那条链表,看链表中是否存在顶点4。而且,我们前面也讲过,链表的存储方式对缓存不友好。所以,比起邻接矩阵的储存方式,在邻接表中查询两个顶点之间的关系就没有那么高效了。

实际上,为了提高查找效率,我们可以将链表换成其他更加高效的数据结构,比如红黑树,跳表等。除此之外,我们还可以将链表改成有序动态数组,可以通过二分查找的方法来快速定位两个顶点之间是否有边。

这里给出的是无向图的实现:

class Graph{
private:
    int max_v;
    vector<int>* adj;
public:
    Graph(int mv){
        max_v = mv;
        adj = new vector<int>[mv];
    }
    void add_dir_Edge(int s,int t){
        adj[s].push_back(t);
    }

    void add_Nodir_Edge(int s,int t){
        adj[s].push_back(t);
        adj[t].push_back(s);
    }

    void print(){
        for(int i=0;i<max_v;++i){
            size_t size = adj[i].size();
            if(size != 0){
                for(int j=0;j<size;++j){
                    cout << i << "->" << adj[i][j]<< "  ";
                }
                cout << endl;
            }
        }
    }
};

如果需要有权值的图,则需要定义一个结构体,里面是数据和权值。

struct node{
    int data;
    int weight;
};

如果存储的不是整数怎么办?我猜想是用哈希算法,得到一个下标。

如何存储微博社交网络中的好友关系?

针对微博用户,假设我们需要支持下面这几个操作:

  • 判断用户A是否关注了用户B
  • 判断用户A是否是用户B的粉丝
  • 用户A关注用户B
  • 用户A取消关注用户B
  • 根据用户名称的首字母排序,分页获取用户的粉丝列表
  • 根据用户名的首字母排序,分页获取用户的关注列表

由于这里的图是一个稀疏图,因此我们选择邻接表的方法来储存。不过,用一个邻接表来储存这种有向图是不够的,我们去查找某个用户关注了哪些用户非常容易,但是如果要知道某个用户被哪些用户关注了,也就是用户的粉丝列表,是非常困难的。基于此,我们需要一个逆邻接表。邻接表中存储了用户的关注关系,逆邻接表储存的是用户的被关注关系。如果要查找某个用户关注了哪些用户,我们可以在邻接表中查找;如果要查找某个用户被哪些用户关注了,我们从逆邻接表中查找。

基础的邻接表不适合快速判断两个用户之间的关系,所以我们选择改进版本,将邻接表中链表改为支持快速查找的动态数据结构。是红黑树,还是跳表,还是有序数组,或者是散列表?

因为我们需要按照用户名称的首字母排序,分页来获取用户的粉丝列表或者关注列表。那么用跳表来实现最好了。因为,跳表插入,删除,查找非常高效,时间复杂度是O(logn)。空间复杂度是O(n)。最重要的一点是,跳表中国胡促成你的数据本来就是有序的了,分页获取粉丝列表或者关注列表,就很高效。

对于小规模的数据,比如社交网络只有几万,几十万个用户,我们可以直接将整个社交网络储存在内存中,上面的解决思路是没有问题的。但是如果微博有上亿的用户,怎么办呢?

我们可以通过哈希算法将数据分片,将邻接表储存在不同的机器上。

 当要查询顶点与顶点之间的关系的时候,我们就利用同样的哈希算法,先定位顶点所在的机器,然后再在相应的机器上。

猜你喜欢

转载自blog.csdn.net/weixin_42073553/article/details/88884391