UCAS-AI学院-知识图谱专项课-第3讲-课程笔记

UCAS-AI学院-知识图谱专项课-第3讲-课程笔记

图数据处理

图概述

  • 图:
    • 自然数据
      • 点、线、面
      • 欧氏空间
    • 社会数据
      • 树、图
      • 非欧式空间(抽象数据表示)
    • 模拟数据
      • 原始信号
      • 设计数据的时空变化
      • 端到端训练
    • 认知数据
      • 抽象数据
      • 描述各种类型数据
      • 任务复杂
  • 图基本概念
    • 有顶点几何以及顶点之间关系几何组成的数据结构
  • 图的分类
    • 无向图
    • 有向图
    • 带权图
    • 属性图
  • 图处理挑战
    • 可变大小
    • 结点无序
    • 局部连接不同
    • 结点间相互依赖(非线性关系)
  • 节点 vs. 结点
    • 节点,实体,有处理能力
    • 结点,交叉点

基本图算法

  • 图的遍历:从图的某一个结点开始,按某种算法不重复访问所有顶点
  • 遍历算法
    • 广度优先
    • 深度优先
  • 路径搜索算法
    • 给定网络结构和路径开销,寻找最小开销通路
    • 最短路径算法
      • Floyd算法
      • Dijkstra算法
  • 图算法应用:
    • 最小生成树:包含所有顶点和 N 1 N - 1 条边的树,边权之和为所有生成树方案最小
      • 贪心算法
        • Prim算法(结点)
        • Kruskal算法(边)
    • 拓扑排序
      • 不断取出入度为0的结点

图信息传播算法

  • 若干定义
    • 临界矩阵 A A
    • 转移矩阵 P P
    • Laplacian矩阵 L L
  • 随机游走:根据转移概率实现游走
    • x t ( i ) x_t(i) 对象在 t t 时刻位于结点 i i 的概率
    • x t + 1 ( i ) = j x t ( j ) P ( j , i ) x_{t + 1}(i) = \sum_j x_t(j) P(j, i)
    • 游走一定步数是否收敛?
    • p t = ( 1 α ) p 0 + α M p t 1 p_t = (1 - \alpha)p_0 + \alpha M^\top p_{t - 1}
    • 应用:网页权重分析
  • 演化:Co-Ranking
    • 异构网络中的联合排序问题
  • 演化:Div-Ranking
    • 处理被高degree结点支配的问题
  • 子集传播模型HITS
    • Hub:所有指向该网页的hub之和
    • Authority:所有指向该网页的authority之和
  • 标签传播算法
    • 将标签传播到未标记结点
    • 基于图的半监督算法——直推学习
    • 假设样本之间具有相关性
      • 计算相似度
      • 将未标记样本连接到相近已标注样本类别上
      • 单步传播标签——需要处理冲突

图神经网络模型

  • 图数据特点
    • 结构可变
    • 扩展度和并行化
  • 常见任务
    • 图表示学习
      • 图的向量表示
      • 结点向量表示
    • 图数据自编码器
    • 图结构生成
    • 图上的分类、预测任务
      • 结点分类
      • 链接预测
      • 子图分类
  • 图数据简便处理方法
    • 遍历图结构得到节点序列,再用NN处理(Neural AMR)
    • 依照图中边的方向传播隐层状态(Recursive LSTM)
  • 图的表示方法
    • 邻接表
    • 邻接矩阵
    • 度矩阵
    • Laplacian矩阵
  • 拉普拉斯矩阵
    • 半正定
    • 特征值中0的次数即连通区域个数
    • 最小特征值必然为0
    • 最小非零特征值是图的代数连通度
    • 特征向量相当于图信号
      • 变化由慢变快
      • 第一个向量对应直流信号(无过零点)
      • 最后一个对应最高频信号
    • 应用:谱聚类
  • 图的傅里叶变换
    • 空间域到频率域
  • 图神经网络
    • 神经网络处理,结点状态更新
    • 两类信息操作:
      • 滤波 / 转换——获得新特征
      • 池化 / 聚合——得到一个更小的图
    • 图信息过滤 / 转换
      • 隐含特征
      • 输入特征
      • h i ( k + 1 ) = v j N ( v i ) f ( l i , h j ( k ) , l j ) ) ,   v i V h_i^{(k + 1)} = \sum_{v_j \in N(v_i)} f(l_i, h_j^{(k)}, l_j)),\ \forall v_i \in V
      • f f 为前馈网络
    • 两类滤波方法
      • 空间滤波
        • 给出每个结点表示
        • 使用空间邻域计算卷积
        • h v = f ( x v , x c o [ v ] , h n e [ v ] , x n e [ v ] ) h_v = f(x_v, x_{co[v]}, h_{ne[v]}, x_{ne[v]})
          • 自己的状态、边的信息、邻居状态、邻居的信息
        • o v = g ( h v , x v ) o_v = g(h_v, x_v)
        • 消息传递网络
          • 卷积网络用结点的度计算权重
          • 使用注意力机制选取邻居
      • 谱滤波
        • 拉普拉斯矩阵的特征值和特征向量
        • L = U A U T L = U A U^T
        • f U g ^ ( Λ ) U T f f \to U \hat g (\Lambda) U^T f (傅里叶变换角度)
        • g ^ ( Λ ) \hat g (\Lambda) 的滤波设计
        • 多通道输入到多通道输出 R N × d 1 R N × d 2 \R^{N \times d_1} \to \R^{N \times d_2}
        • 参数过多( d 1 × d 2 × N d_1 \times d_2 \times N )——参数共享 + 不做特征值分解——多项式参数 d 1 × d 2 × k d_1 \times d_2 \times k
        • 特征值矩阵参数化
        • 结点 v i v_i v j v_j 实现了 k k 阶关联: U g ^ ( Λ ) U T f ( i ) = j k θ k L i , j k f ( j ) U \hat g (\Lambda) U^T f(i) = \sum_j \sum_k \theta_k L_{i,j}^k f(j)
        • 超过 k k 步,无法建模——建模了邻居结点局部关联特征
        • 实现结点计算局部化,但是存在问题
    • 考虑边的图神经网络
      • 先由结点更新边(端点),再更新结点(所有连结边)
        • 支持边特征
        • 表现力更强
        • 支持稀疏矩阵晕眩
        • 但是需要保存边的中间激活信息
        • 难以下采样
  • NLP中的Graph2Seq
    • 图是描述复杂内容的通用语言
    • 将AMR(抽象语义表示)转换为自然语言句子
    • 在这里插入图片描述
    • 输入转换为Levi图:边上的标签化另一类结点
    • 在这里插入图片描述
    • 用图网络代替Seq2Seq的编码器
    • 更新算法P45
    • 图编码
      • 双向结点表示
        • 两个隐状态,分别前向(指向)和后向(被指)
        • k步邻居
        • 最终结果为两个状态的拼接
      • 图表示
        • 所有结点池化结果
        • 插入虚拟结点,与所有结点相连,为整体图表示
    • 解码部分与Seq2Seq基本一致
  • 句子的图表示
    • 混合表示:成分句法(短语结构)+依存句法(依存关系)
发布了16 篇原创文章 · 获赞 0 · 访问量 78

猜你喜欢

转载自blog.csdn.net/cary_leo/article/details/105620143