图数据处理

图概述

图：
- 自然数据
  - 点、线、面
  - 欧氏空间
- 社会数据
  - 树、图
  - 非欧式空间（抽象数据表示）
- 模拟数据
  - 原始信号
  - 设计数据的时空变化
  - 端到端训练
- 认知数据
  - 抽象数据
  - 描述各种类型数据
  - 任务复杂
图基本概念
- 有顶点几何以及顶点之间关系几何组成的数据结构
图的分类
- 无向图
- 有向图
- 带权图
- 属性图
图处理挑战
- 可变大小
- 结点无序
- 局部连接不同
- 结点间相互依赖（非线性关系）
节点 vs. 结点
- 节点，实体，有处理能力
- 结点，交叉点

基本图算法

图的遍历：从图的某一个结点开始，按某种算法不重复访问所有顶点
遍历算法
- 广度优先
- 深度优先
路径搜索算法
- 给定网络结构和路径开销，寻找最小开销通路
- 最短路径算法
  - Floyd算法
  - Dijkstra算法
图算法应用：
- 最小生成树：包含所有顶点和 $N - 1$ 条边的树，边权之和为所有生成树方案最小
  - 贪心算法
    - Prim算法（结点）
    - Kruskal算法（边）
- 拓扑排序
  - 不断取出入度为0的结点

图信息传播算法

若干定义
- 临界矩阵 $A$
- 转移矩阵 $P$
- Laplacian矩阵 $L$
随机游走：根据转移概率实现游走
- $x_t(i)$ 对象在 $t$ 时刻位于结点 $i$ 的概率
- $x_{t + 1}(i) = \sum_j x_t(j) P(j, i)$
- 游走一定步数是否收敛？
- $p_t = (1 - \alpha)p_0 + \alpha M^\top p_{t - 1}$
- 应用：网页权重分析
演化：Co-Ranking
- 异构网络中的联合排序问题
演化：Div-Ranking
- 处理被高degree结点支配的问题
子集传播模型HITS
- Hub：所有指向该网页的hub之和
- Authority：所有指向该网页的authority之和
标签传播算法
- 将标签传播到未标记结点
- 基于图的半监督算法——直推学习
- 假设样本之间具有相关性
  - 计算相似度
  - 将未标记样本连接到相近已标注样本类别上
  - 单步传播标签——需要处理冲突

图神经网络模型

图数据特点
- 结构可变
- 扩展度和并行化
常见任务
- 图表示学习
  - 图的向量表示
  - 结点向量表示
- 图数据自编码器
- 图结构生成
- 图上的分类、预测任务
  - 结点分类
  - 链接预测
  - 子图分类
图数据简便处理方法
- 遍历图结构得到节点序列，再用NN处理（Neural AMR）
- 依照图中边的方向传播隐层状态（Recursive LSTM）
图的表示方法
- 邻接表
- 邻接矩阵
- 度矩阵
- Laplacian矩阵
拉普拉斯矩阵
- 半正定
- 特征值中0的次数即连通区域个数
- 最小特征值必然为0
- 最小非零特征值是图的代数连通度
- 特征向量相当于图信号
  - 变化由慢变快
  - 第一个向量对应直流信号（无过零点）
  - 最后一个对应最高频信号
- 应用：谱聚类
图的傅里叶变换
- 空间域到频率域
图神经网络
- 神经网络处理，结点状态更新
- 两类信息操作：
  - 滤波 / 转换——获得新特征
  - 池化 / 聚合——得到一个更小的图
- 图信息过滤 / 转换
  - 隐含特征
  - 输入特征
  - $h_i^{(k + 1)} = \sum_{v_j \in N(v_i)} f(l_i, h_j^{(k)}, l_j)),\ \forall v_i \in V$
  - $f$ 为前馈网络
- 两类滤波方法
  - 空间滤波
    - 给出每个结点表示
    - 使用空间邻域计算卷积
    - $h_v = f(x_v, x_{co[v]}, h_{ne[v]}, x_{ne[v]})$
      - 自己的状态、边的信息、邻居状态、邻居的信息
    - $o_v = g(h_v, x_v)$
    - 消息传递网络
      - 卷积网络用结点的度计算权重
      - 使用注意力机制选取邻居
  - 谱滤波
    - 拉普拉斯矩阵的特征值和特征向量
    - $L = U A U^T$
    - $f \to U \hat g (\Lambda) U^T f$ （傅里叶变换角度）
    - $\hat g (\Lambda)$ 的滤波设计
    - 多通道输入到多通道输出 $\R^{N \times d_1} \to \R^{N \times d_2}$
    - 参数过多（ $d_1 \times d_2 \times N$ ）——参数共享 + 不做特征值分解——多项式参数 $d_1 \times d_2 \times k$
    - 特征值矩阵参数化
    - 结点 $v_i$ 与 $v_j$ 实现了 $k$ 阶关联： $U \hat g (\Lambda) U^T f(i) = \sum_j \sum_k \theta_k L_{i,j}^k f(j)$
    - 超过 $k$ 步，无法建模——建模了邻居结点局部关联特征
    - 实现结点计算局部化，但是存在问题
- 考虑边的图神经网络
  - 先由结点更新边（端点），再更新结点（所有连结边）
    - 支持边特征
    - 表现力更强
    - 支持稀疏矩阵晕眩
    - 但是需要保存边的中间激活信息
    - 难以下采样
NLP中的Graph2Seq
- 图是描述复杂内容的通用语言
- 将AMR（抽象语义表示）转换为自然语言句子
- 输入转换为Levi图：边上的标签化另一类结点
- 用图网络代替Seq2Seq的编码器
- 更新算法P45
- 图编码
  - 双向结点表示
    - 两个隐状态，分别前向（指向）和后向（被指）
    - k步邻居
    - 最终结果为两个状态的拼接
  - 图表示
    - 所有结点池化结果
    - 插入虚拟结点，与所有结点相连，为整体图表示
- 解码部分与Seq2Seq基本一致
句子的图表示
- 混合表示：成分句法（短语结构）+依存句法（依存关系）

一只派大星

发布了16 篇原创文章 · 获赞 0 · 访问量 78

私信关注

UCAS-AI学院-知识图谱专项课-第3讲-课程笔记

UCAS-AI学院-知识图谱专项课-第3讲-课程笔记

图数据处理

图概述

基本图算法

图信息传播算法

图神经网络模型

猜你喜欢