数据结构与算法之美（笔记15）图的表示

如何理解图？

我们直到，树中的元素我们称为节点，图中的元素我们就叫作顶点（vertex）。从画的图中知道，图中的一个顶点可以与任意其他顶点建立连接关系，我们把这种关系叫作边（edge）。

我们日常生活中的社交网络，就是一个很典型的图的应用。比如微信，我们把每一个用户看成一个顶点。如果两个用户之间相互添加好友，那就在两者之间建立一条边。其中，每个用户有多少个好友，对应到图中，就叫作顶点的度（degree），就是跟顶点相互连接的边的个数。

实际上，微博的社交关系跟微信不一样。微博允许单向关注，也就是说，A用户关注了用户B，但是用户B可以不关注用户A。这时候我们可以对图引入边的方向的概念。

如果用户A关注了用户B，我们就在图中画一条从A到B的带箭头的边，来表示边的方向。如果用户A和用户B互相关注，我们就画一条从A指向B的边，再画一条B指向A的边。这种有方向的图我们叫作“有向图”，同理，把没有方向的图叫作“无向图”。

在有向图中，我们把度分成入度（in-degree）和出度(out-degree) 。

顶点的入度，表示有多少条边指向这个顶点，顶点的出度表示该顶点有多少条边指向别的顶点。对应与微博，入度就表示有多少粉丝，出度就表示关注了多少人。

我们再来讲讲QQ。QQ不仅记录了用户之间的友好关系，还记录了两个用户之间的亲密度，如果两个用户经常往来，亲密度就比较高，如果两个用户不经常往来，那亲密度就比较低。

这里就要使用另一种图，带权图（weighted graph）。

在带权图中，每条边都有一个权重，我们可以通过这个权重来表示QQ好友的亲密度。

如何存储一个图？

1.邻接矩阵储存方法

邻接矩阵的底层依赖一个二维数组，对于无向图来说，如果顶点 i 与顶点 j 之间有边，我们就将A[i][j] 和 A[j][i] 标记为1；对于有向图来说，如果顶点 i 到顶点 j 之间，有一条箭头从顶点 i 指向顶点j 的边，那我们就将A[i][j] 标记为1。对于带权图，数组中存储对应的权重。

用邻接矩阵简单，直观，但却比较浪费储存空间。

对于无向图来说，其实上三角以及下三角是一样的，因此我们只需要一个上三角或者一个下三角就行了。另外，如果我们储存的是稀疏图，就是说，顶点很多，但是每个顶点的边并不多，那邻接矩阵的储存方法就更加浪费空间。

但这也不是说，邻接矩阵的存储方法就没有优点。首先，邻接矩阵的储存方式简单，直接，因为基于数组，所以在获取两个顶点的关系，就非常高效。其次，用邻接矩阵储存图的另外一个好处就是方便计算。因为，用邻接矩阵的方式储存图，可以将很多图的运算转换成矩阵之间的运算。

2.邻接表储存方法

每个顶点对应一条链表，链表中储存的是与这个顶点相连接的其他顶点。不过，图中画的是一个有向图的邻接表储存方式，每个顶点对应的链表里面，储存的是指向的顶点。对于无向图来说，也只是类似的。不过，每个顶点的链表中储存的，是跟这个顶点有边相连的顶点。

邻接矩阵储存起来比较浪费空间，但是使用起来比较节省时间。相反，邻接表储存起来比较节省空间，但是使用起来比较耗时间。

就像图中的例子，如果我们要确定，是否存在一条从顶点2到顶点4的边，那我们就要遍历顶点2对应的那条链表，看链表中是否存在顶点4。而且，我们前面也讲过，链表的存储方式对缓存不友好。所以，比起邻接矩阵的储存方式，在邻接表中查询两个顶点之间的关系就没有那么高效了。

实际上，为了提高查找效率，我们可以将链表换成其他更加高效的数据结构，比如红黑树，跳表等。除此之外，我们还可以将链表改成有序动态数组，可以通过二分查找的方法来快速定位两个顶点之间是否有边。

这里给出的是无向图的实现：

class Graph{
private:
    int max_v;
    vector<int>* adj;
public:
    Graph(int mv){
        max_v = mv;
        adj = new vector<int>[mv];
    }
    void add_dir_Edge(int s,int t){
        adj[s].push_back(t);
    }

    void add_Nodir_Edge(int s,int t){
        adj[s].push_back(t);
        adj[t].push_back(s);
    }

    void print(){
        for(int i=0;i<max_v;++i){
            size_t size = adj[i].size();
            if(size != 0){
                for(int j=0;j<size;++j){
                    cout << i << "->" << adj[i][j]<< "  ";
                }
                cout << endl;
            }
        }
    }
};

如果需要有权值的图，则需要定义一个结构体，里面是数据和权值。

struct node{
    int data;
    int weight;
};

如果存储的不是整数怎么办？我猜想是用哈希算法，得到一个下标。

如何存储微博社交网络中的好友关系？

针对微博用户，假设我们需要支持下面这几个操作：

判断用户A是否关注了用户B
判断用户A是否是用户B的粉丝
用户A关注用户B
用户A取消关注用户B
根据用户名称的首字母排序，分页获取用户的粉丝列表
根据用户名的首字母排序，分页获取用户的关注列表

由于这里的图是一个稀疏图，因此我们选择邻接表的方法来储存。不过，用一个邻接表来储存这种有向图是不够的，我们去查找某个用户关注了哪些用户非常容易，但是如果要知道某个用户被哪些用户关注了，也就是用户的粉丝列表，是非常困难的。基于此，我们需要一个逆邻接表。邻接表中存储了用户的关注关系，逆邻接表储存的是用户的被关注关系。如果要查找某个用户关注了哪些用户，我们可以在邻接表中查找；如果要查找某个用户被哪些用户关注了，我们从逆邻接表中查找。

基础的邻接表不适合快速判断两个用户之间的关系，所以我们选择改进版本，将邻接表中链表改为支持快速查找的动态数据结构。是红黑树，还是跳表，还是有序数组，或者是散列表？

因为我们需要按照用户名称的首字母排序，分页来获取用户的粉丝列表或者关注列表。那么用跳表来实现最好了。因为，跳表插入，删除，查找非常高效，时间复杂度是O(logn)。空间复杂度是O(n)。最重要的一点是，跳表中国胡促成你的数据本来就是有序的了，分页获取粉丝列表或者关注列表，就很高效。

对于小规模的数据，比如社交网络只有几万，几十万个用户，我们可以直接将整个社交网络储存在内存中，上面的解决思路是没有问题的。但是如果微博有上亿的用户，怎么办呢？

我们可以通过哈希算法将数据分片，将邻接表储存在不同的机器上。

当要查询顶点与顶点之间的关系的时候，我们就利用同样的哈希算法，先定位顶点所在的机器，然后再在相应的机器上。