UCAS-AI学院-知识图谱专项课-第3讲-课程笔记
其他
2020-04-20 20:04:03
阅读次数: 0
UCAS-AI学院-知识图谱专项课-第3讲-课程笔记
图数据处理
图概述
- 图:
- 图基本概念
- 图的分类
- 图处理挑战
- 可变大小
- 结点无序
- 局部连接不同
- 结点间相互依赖(非线性关系)
- 节点 vs. 结点
基本图算法
- 图的遍历:从图的某一个结点开始,按某种算法不重复访问所有顶点
- 遍历算法
- 路径搜索算法
- 给定网络结构和路径开销,寻找最小开销通路
- 最短路径算法
- 图算法应用:
- 最小生成树:包含所有顶点和
N−1条边的树,边权之和为所有生成树方案最小
- 拓扑排序
图信息传播算法
- 若干定义
- 临界矩阵
A
- 转移矩阵
P
- Laplacian矩阵
L
- 随机游走:根据转移概率实现游走
-
xt(i)对象在
t时刻位于结点
i的概率
-
xt+1(i)=∑jxt(j)P(j,i)
- 游走一定步数是否收敛?
-
pt=(1−α)p0+αM⊤pt−1
- 应用:网页权重分析
- 演化:Co-Ranking
- 演化:Div-Ranking
- 子集传播模型HITS
- Hub:所有指向该网页的hub之和
- Authority:所有指向该网页的authority之和
- 标签传播算法
- 将标签传播到未标记结点
- 基于图的半监督算法——直推学习
- 假设样本之间具有相关性
- 计算相似度
- 将未标记样本连接到相近已标注样本类别上
- 单步传播标签——需要处理冲突
图神经网络模型
- 图数据特点
- 常见任务
- 图表示学习
- 图数据自编码器
- 图结构生成
- 图上的分类、预测任务
- 图数据简便处理方法
- 遍历图结构得到节点序列,再用NN处理(Neural AMR)
- 依照图中边的方向传播隐层状态(Recursive LSTM)
- 图的表示方法
- 拉普拉斯矩阵
- 半正定
- 特征值中0的次数即连通区域个数
- 最小特征值必然为0
- 最小非零特征值是图的代数连通度
- 特征向量相当于图信号
- 变化由慢变快
- 第一个向量对应直流信号(无过零点)
- 最后一个对应最高频信号
- 应用:谱聚类
- 图的傅里叶变换
- 图神经网络
- 神经网络处理,结点状态更新
- 两类信息操作:
- 滤波 / 转换——获得新特征
- 池化 / 聚合——得到一个更小的图
- 图信息过滤 / 转换
- 隐含特征
- 输入特征
-
hi(k+1)=∑vj∈N(vi)f(li,hj(k),lj)), ∀vi∈V
-
f为前馈网络
- 两类滤波方法
- 空间滤波
- 给出每个结点表示
- 使用空间邻域计算卷积
-
hv=f(xv,xco[v],hne[v],xne[v])
-
ov=g(hv,xv)
- 消息传递网络
- 卷积网络用结点的度计算权重
- 使用注意力机制选取邻居
- 谱滤波
- 拉普拉斯矩阵的特征值和特征向量
-
L=UAUT
-
f→Ug^(Λ)UTf(傅里叶变换角度)
-
g^(Λ)的滤波设计
- 多通道输入到多通道输出
RN×d1→RN×d2
- 参数过多(
d1×d2×N)——参数共享 + 不做特征值分解——多项式参数
d1×d2×k
- 特征值矩阵参数化
- 结点
vi与
vj实现了
k阶关联:
Ug^(Λ)UTf(i)=∑j∑kθkLi,jkf(j)
- 超过
k步,无法建模——建模了邻居结点局部关联特征
- 实现结点计算局部化,但是存在问题
- 考虑边的图神经网络
- 先由结点更新边(端点),再更新结点(所有连结边)
- 支持边特征
- 表现力更强
- 支持稀疏矩阵晕眩
- 但是需要保存边的中间激活信息
- 难以下采样
- NLP中的Graph2Seq
- 图是描述复杂内容的通用语言
- 将AMR(抽象语义表示)转换为自然语言句子
- 输入转换为Levi图:边上的标签化另一类结点
- 用图网络代替Seq2Seq的编码器
- 更新算法P45
- 图编码
- 双向结点表示
- 两个隐状态,分别前向(指向)和后向(被指)
- k步邻居
- 最终结果为两个状态的拼接
- 图表示
- 所有结点池化结果
- 插入虚拟结点,与所有结点相连,为整体图表示
- 解码部分与Seq2Seq基本一致
- 句子的图表示
- 混合表示:成分句法(短语结构)+依存句法(依存关系)
发布了16 篇原创文章 ·
获赞 0 ·
访问量 78
转载自blog.csdn.net/cary_leo/article/details/105620143