异质信息网络分析与应用综述(石川)--阅读

写在前面

该文是针对该文章的阅读,主要关注在后三章,对后三章进行理解与扩展,并读了部分后三章所引用文章,因为前两章都是简单的基本概念,所以这里不详述。(本文是将我平常的工作记录、阅读笔记直接拷贝过来)论文链接:异质信息网络分析与应用综述(石川)

前两章简单阅读

  • 整篇文章关注于以下几点:
    • 异质信息网络的概念
    • 异质信息网络原路径的数据挖掘方法
    • 异质信息网络的表示学习技术
    • 异质信息网络的实际应用
  • 绪论介绍了异质网络为什么出现以及异质网络出现的意义

异质网络的基本概念

  • 信息网络;balaba
  • 异质/同质网络:节点与边的类型是否多于1
  • 网络模式:就像是知识图谱的本题,是构建异质网络所遵循的一种基本概念,或是基本规则,网络模式是类,而实际异质网络算是类的一种实现方式
  • 下面是从语义上去探索
  • 元路径:从一个类型到达另一个类型,中间会经历不少的其他类型,也会经历不少的其他边,这些是一条元路径P。而从一个具体的对象到达另外一个对象,就是该元路径P的一个实例路径p。
    • 元路径本质上抽取了异质网络的子结构
    • 其体现了路径上的丰富语义信息
    • 异质网络分析的基本语义捕捉方法
    • 其缺陷也很明显,所以应运而生升级的语义捕捉方法们
  • 受限元路径:施加约束的元路径,针对特定约束的元路径,更加具体,针对
    • 可以约束类型的属性值
    • 或者说,不是约束,而是展示
  • 加权元路径:展示关系属性值的元路径,可以说是对关系的属性值进行刻画
    • 展示关系的强弱,比元路径具有更深刻的语义
  • 元结构/元图:
    • 融合了多条原路径
    • 蕴含着更多的语义信息
  • 后面的异质网络举例就没什么好说的了,不过那些数据集我倒是觉得有点意思
  • 后面还提到了知识图谱和异质网络,awsl,舒服了

基于原路径的挖掘

  • 相似性度量
  • 推荐(大致上看了一下,是基于元路径)
  • 分类
  • 聚类及其他
  • 元路径选择:
  • 这里不细看,

异质网络的学习表示

浅层模型

基于分解的方法
  • 概念为分治思想,将大型复杂的网络分解成简单的小网络(同质),分别进行表示学习,然后进行信息融合
  • HERec:论文因为是做推荐的,所以它只关注user和item,因此,在论文中只选择了那些user类型或item类型作为起点的元路径,然后进行随机游走,从而生成多个元路径所对应的节点序列,此时,其将其中非起点类型的节点全部删去,从而形成了一个同质的元路径。从而将整个异质网络分解成了多个同质网络。其中改论文获得所有节点序列的方式是随机游走,所以这是一个基于元路径的随机游走
    • 针对每个节点,便可以获得一些元路径的随机游走的表示,将这些可以融合成一个向量来表示该节点
    • 它是给定异质网络,给定元路径,然后根据随机游走生成该元路径的一些实例,之后再进行删点
    • 这里的随机游走在于,给定元路径,根据元路径的规则(类别)随机选择实例对象
    • 这里主要是从异质网络分解成同质网络
    • 在这里插入图片描述
  • 尹赢 结合不同元路径将异质信息网络转换成带权同质子图
    • 大致的流程是:利用先验知识,根据同类节点间不同元路径的语义信息对不同元路径设置不同权重,然后根据权重及路径数构建出代权重的同质子图,通过同质子图上进行带偏置的随机游走得到同类节点序列(偏置意为有方向引导)。
    • 在这里插入图片描述
    • 这个图救命了啊,懂了,根据不同元路径对应的不同权值,来将整个网络给变成不同的同质子图
  • PTE和EOE都是对异质网络进行简单的拆分
  • 上述这些分解会损失异质邻居的信息,只关注到了同质的邻居信息,这个···也是对我之前提的方法的否定,大哭
基于元路径的随机游走的方法
  • 随机游走本身不受控制
  • 但是基于元路径的话,就相当于是在随机游走时有了约束
  • 大概理解了node2vec的作用以及机理:大概是,我对一个点,可以设定随机游走的路径个数,然后抽取这个个数的随机游走路径,这些路径都包含该节点,然后该节点就可以用这些路径来表示。所以表示该节点的向量,就包含了这个节点以及其周围的结构信息
  • 而基于元路径的随机游走也基本上是这样的,只不过是受约束的,受元路径的约束
  • 在这里插入图片描述
  • eg:OAPVPAO
基于关系的方法
  • RHINE模型,是将关系分为两类,一类是一对多,一类是一对一,分别对两种关系类别分开建模。
  • BHIN2vec:
    • 带偏置的随机游走
    • 因为不同关系的数量不同,所以损失不一样,所以在进行随机游走的的时候加上误差,尽力使得平衡
  • 后面的不看了
  • 这里关于关系系的有点懵,不是太理解

深度模型

慢慢的看博客,论文翻译,要好多了,生成对抗网络理解的多的多了

基于自动编码器
  • 利用神经网络构建编码其学习节点属性表示的同时保持网络结构特性
  • 对不同元路径的信息进行编码,之后综合信息进行联合编码
  • 关于这一块,更多的抽象理解成GAN中的生成器
基于生成对抗网络
  • 利用生成对抗网络来进行表示
  • 生成对抗网络的强大之处在于可以自动学习原始真实样本集的数据分布
  • 则其就可以用来学习并生成逼真的样本
  • 生成器与判别器进行对抗博弈
  • 来捕获语义信息
  • 进行关系感知
  • 在HeGAN中,判别器和生成器都被设计成关系感知的,对于任何关系,判别器都可以分辨出一个节点的真假
  • 而生成器可以模仿真节点对来生成假节点对
  • 在这里插入图片描述
基于强化学习
  • 强化深度学习是强化学习+神经网络
  • 其主要关键点在于强化学习,而不是神经网络,神经网络只是让强化学习能处理复杂的高维信息
  • 强化学习主要在于根据环境来决定如何行动
  • 边获得样例边更新模型,然后根据当前模型来进行指导下一步行动
  • 而下一步行动是考虑环境,观察环境,并考虑基于当前环境,不同行为所能够带来的reward是不一样的
  • 基于此来进行选择
  • 此处是针对元路径的选择困境,将下有任务性能作为reward
  • state是已选择的链接类型顺序
  • action来选择用于学习或终止训练的特定类型链接
  • 在异构星型网络的节点表示学习问题上,不同类型边的训练顺序会影响模型的表现效果
  • 所以在涉及到这个学习的过程中,用深度强化学习来进行确定边的训练顺序
基于图神经网络
  • 这一块的大概意思是将邻域信息聚合做为消息传递给邻居节点(用周围信息来描述该节点)。
  • 也就是之前理解的那种进行随机游走,将节点周围的结构信息给也刻画到该节点上(只能说是有点像)
  • 进行修改,例如基于分层注意力机制学习每个节点的个性化元路径权重
  • 而对于异质网来说,如何设计合适的聚合函数来捕获领域包含的的语义是关键

浅层模型与深层模型对比

  • 浅层模型主要关注在异质网络的结构,很少利用属性等额外信息
  • 浅层模型不易描述额外信息与结构信息的关系,同时建模两者困难
  • 深层模型的学习能力支持复杂的的建模方式,能够整合网络的结构和属性信息
  • 浅层模型缺乏非线性表示能够力,但高效且易于并行(自然,整合的东西少,本身神经网络就要慢一些)
  • 深层模型表示能力强,但是容易拟合噪音、时空复杂度高且调参繁琐

与知识图谱表示学习的区别与联系

  • 知识图谱的表示学习以及问题
  • 知识图谱以图的形式表现客观世界中的尝试和事实
  • 可以给人工智能系统提供可处理的先验知识
  • 知识图谱表示学习将知识图谱中的实体和关系 学习为 包含语义信息的低维向量表示
  • 传统异质网络表示学习关注 拓扑结构
  • 知识图谱节点丰富,连接类型丰富,难以直接引用元路径等传统异质网络挖掘方法
  • 目前主流的表示学习方法Trans系列
  • 知识图谱是无模式的异质网络,本质上属于异质网络范畴
  • 为了平衡效率和效果,知识图谱表示学习方法忽略网络本身复杂结构(如何将简单模式的异质网络迁移至复杂模式的知识图谱)
  • 知识图谱有本题数据模型,传统异质网络表示如何将基于本体和规则的推理方法在语义层刻画

应用场景

  • 之前的是基础数据挖掘人物
  • 除此之外 在商业、安全、医学等领域有许多实际的场景

商业领域

  • 异质网络建模可以涵盖多类型节点及其之间的交互,整合丰富甚至异构的信息源,从而全面地刻画节点特征
  • 在这里插入图片描述
  • 最广泛的应用:推荐
  • 传统的推荐:仅考虑用户与物品的交互
  • 实际上的推荐应该:用户、商品、店铺、朋友之间的交互
  • MEIRec:建模异质网络,提出基于元路径的异质图神经网络学习意图推荐中的用户表示
  • Yu建模基于位置的社交网络,用贪心算法进行兴趣点 组推荐
  • HIE通过建模文字与响应模式等信息,预测用户的个性特征
  • CIKM最佳应用论文将咸鱼app中的用户、商品和评论建模为二分网络,并基于图神经网络进行垃圾评论过滤,减少其对用户选择的影响
  • 另一个应用:套现用户检测
  • 检测具有极高贷款违约率的用户
  • 常规方法基于统计特征训练分类器、
  • HACUD利用属性异质网络建模蚂蚁金服信用支付中用户与商家间的交互,并基于原路径和层次注意力机制学习用户表示
  • 另一个应用:在线租车平台希望提升用户乘车体验并预测用户行程
  • PHINE建模驾驶员、乘车和位置等信息
  • TDP利用行程起止点来预测用户短期出行可能

网络安全

  • 恶意软件检测
  • 传统方法基于签名识别
  • KDD最佳论文,提出HinDroid将安卓应用程序、相关API及其丰富关系建模成异质网络,基于不同元路径度量安卓应用的相似性。最终利用多核学习加权相似性来进行预测
  • 在这里插入图片描述
  • AiDroid分类学习节点表示,利用深度神经网络进行监测
  • aCyber提出对抗攻击模型和防御模型来提升监测的鲁棒性
  • 恶意账户检测
  • Liu从支付宝异质子图中自适应学习嵌入表示,利用注意力机制区分不同类型节点的重要性
  • OSNE将犯罪和恐怖主义活动建模成异质网络,来识别恐怖分子
  • iDetector建模地下论坛,基于不同原结构表征帖子间的相关性并进行有效融合
  • uStyle-uIDy建模文本和照片,提出基于书写及摄影风格识别毒品贩子
  • 异常事件检测
  • 一个常评论动作电影的用户突然评论了情感类电影就是异常
  • Fan提出同时包含实体属性和二阶结构深度异质网络嵌入方法
  • Ranjbar等人提出基于张量分解和聚类的异常检测方法

医学领域

  • 疾病诊断
  • 电子健康记录(EHR)有患者临床实践的详细记录,结构、语义丰富
  • HeteroMed使用异质网络对临床数据进行建模,利用元路径捕获有助于疾病诊断的重要语义
  • HinOPU框架利用异质网络建模推特中用户和推文间的关系,基于元图表征用户间的语义相关性进行阿片类药物使用者的预测
  • 基因分析
  • 以往的方法只关注基因本身,忽视了相关的生物网络拓扑结构中的信息
  • PLPIHS建模lncRNA-蛋白质网络,基于HeteSim(一种相关性计算方法,基于元路径)计算lncRNA-蛋白质对的相关性评分来推断其相互作用
  • 马毅基于HeteSim尖酸治病基因间的相关性

未来发展方向

  • 面向多模态数据的异质网络构建与分析方法
  • 现有工作致力于关系数据库类的结构化数据建模
  • 文本、图像和多媒体?
  • 存在不少难题:
    • 利用半结构化的异质网络建模多模态数据时,节点和边关系不明确且复杂(如何从多模态数据中提取出合适的对象和关系)
    • 异质网络表示学习和多模态数据表示学习 如何有机融合
  • 面向复杂网络数据的异质网络分析方法
  • 实际复杂网络的特点变成了难题:
  • 实际网络动态异质:不断新节点产生,新交互
  • 实际网络规模巨大:算法的时间复杂度,响应时间
  • 实际网络模式丰富:知识图谱?难以描述,
  • 实际网络的连接包含丰富信息:社交异质网络中的关注、转发等是有向的,···
  • 面对深度计算的异质网络表示学习
  • 异质图神经网络的内部机制:聚合邻居信息
  • 异质图神经网络的鲁棒性:(研究表明)其易受对抗攻击
  • 异质网络表示学习的可解释性:eg,商品推荐依据元路径的注意力权重的推荐理由?
  • 异质网络与知识的融合:如何融合知识与异质网络产生足够的泛化能力
  • 更多的实际应用:应用不少,上面讲到已经有实际应用,商业,医学,网络安全
  • 但是其他领域引用的还是太少,尚待发掘

猜你喜欢

转载自blog.csdn.net/qq_34687559/article/details/112857285