一、图机器学习导论【CS224W】(Datawhale组队学习)

请添加图片描述

开源内容:https://github.com/TommyZihao/zihao_course/tree/main/CS224W

子豪兄B 站视频:https://space.bilibili.com/1900783/channel/collectiondetail?sid=915098

斯坦福官方课程主页:https://web.stanford.edu/class/cs224w

前言

图是描述关联数据的通用语言,很多数据都是以图的形式进行存储的。很多问题也可以转换成图的问题,例如七桥问题。图广泛的存在于自然界中,例如黏菌在培养皿里面可以形成铁路网的形状。
因此研究图机器学习十分必要,没有相关基础的小伙伴可以参考这篇博客图论期末复习(《图论机器应用》——朴月华),了解一下图论的基本知识。

图的应用场景

图的应用场景:事件关系、计算机网络、疾病传播路径、食物链、粒子网络、地铁站、社交网络、经济网络、通讯网络、论文引用网络、互联网、神经网络、医疗知识图谱、基因和蛋白质的调控网络、场景网络、代码图、化学分子、3D建模
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

如何对图数据进行挖掘

  • 传统的机器学习
    数据都是独立同分布的,彼此孤立无关
    在这里插入图片描述

  • 现代深度学习方法
    主要用于处理表格、像素矩阵或者序列数据,包括全连接神经网络、卷积神经网络(CS231N)、循环神经网络(CS224N)、Transformer、图神经网络(CS244W)

  • 图深度学习
    前面介绍的那些方法都无法处理由节点和连接构成的图数据,而这却恰恰是图机器学习所要解决的问题。图深度学习近几年在深度学习领域的顶级会议ICLR中崭露头角,图机器学习是人工智能和深度学习的新蓝海。
    在这里插入图片描述

图深度学习

图神经网络的大致架构如下,可以简单的理解为输入图,通过黑箱获得想要的结果
在这里插入图片描述
图神经网络可以进行端到端的表示学习,并自动学习特征,无需人工特征工程
在这里插入图片描述
图嵌入将 N N N个复杂节点数据变为一个 N × d N×d N×d维向量,这个向量包含原始数据的语义信息
在这里插入图片描述

图深度学习难点

图深度学习的网络十分复杂,可以归结为以下三点:

  1. 任意尺寸的输入和复杂的拓扑结构
  2. 没有固定的节点顺序和参考锚点
  3. 经常是动态变化同时具有多模态特征
    在这里插入图片描述

图机器学习必备工具

图深度学习工具包:
PyG(PyTorch Geometric):官方自己的库,和PyTorch类似
GraphGym:用于设计和评估图神经网络(GNN)的平台
NetworkX:用于构建和操作复杂的图结构,提供分析图的算法
DGL:复现了近几年的顶会论文,适合进行学术研究

图数据可视化工具:AntVEchartsGraphXR

图数据库:Neo4j,更多见DB-Engines Ranking of Graph DBMS

图机器学习应用

图机器学习的任务类型有很多种,包括:节点、边、子图、图
在这里插入图片描述

图的计算任务

图上有各种各样的计算任务,这些任务主要分为以下几种

  • 基于节点的任务

    • 节点分类:预测节点的一个属性
      示例:对在线用户/项目进行分类
      在这里插入图片描述
  • 基于边的任务

    • 链接预测:预测两个节点之间是否存在缺失链接
      示例:推荐系统、药物联合副作用、交通预测
      在这里插入图片描述
      在这里插入图片描述
  • 基于子图的任务

    • 交通预测
      在这里插入图片描述
  • 基于图的任务

    • 图分类:对不同的图进行分类
      示例:分子特性预测

    • 图生成:药物发现(从头设计药物;现有数据库的虚拟筛选;药物再利用)、AlphaFold
      在这里插入图片描述
      在这里插入图片描述

    • 图演化:物理模拟
      在这里插入图片描述

图的商业价值

  • 图是最优质的长期资产
  • 网络效应是一个企业最深的护城河
    在这里插入图片描述

图数据挖掘项目

ReadPaper:专业的学术讨论社区,实现文献引用网络
CONNECTED PAPERS:可以展示文献引用网络
BIOS:生物医学知识图谱
刘焕勇主页
Hypercrx:展示项目关系网络图、项目活跃开发者协作网络图
OpenRank:一种基于异质网络的价值评价算法
开源项目和开源企业排行榜
Open_galaxy
红楼梦人物知识图谱

扩展阅读

AlphaFold

AlphaFold官网

AlphaFold蛋白质数据库

AlphaFold博客1

AlphaFold博客2

AlphaFold自然杂志论文

AlphaFold代码

百度文心·生物计算大模型

人工智能在药物发现和生物技术中的应用:2022年回顾与关键趋势

思考题

  • 打开你的手机,里面那些APP用到了图机器学习和图神经网络的技术?(内容个性化推荐、社交网络、银行金融)

  • A股、港股、美股市值最高的上市公司,哪些公司的核心资产是图?

  • 观看电影《社交网络》,图和图数据挖掘的商业价值体现在哪些方面?

  • 马化腾在2022年12月内部讲话提到,微信视频号是整个腾讯的希望,请从图的角度解释这句话。

  • 在你自己的研究领域,哪些数据可以用图或者网络来表示,如何进行图数据挖掘?

  • 近年来,图数据挖掘在哪些领域带来了革命性进展?

  • 图数据挖掘解决哪些基本任务?

  • 分别从图、连接、节点三个层面,举例解释图数据挖掘在生物医学方面的应用。

  • 图神经网络为什么是端到端的?为什么不需要人工做特征工程?

  • 图神经网络和其它神经网络有什么区别?

  • 简述AlphaFold的基本原理,它解决了哪些以前解决不了的问题?

  • 图机器学习和传统机器学习有什么区别和难点?

  • 图机器学习的编程工具有哪些?看看它们的官网吧(Graphgym、pyG、networkx、dgl、Pytorch、AntV、Echarts)

其它阅读材料

李笑来-惊喜与创造惊喜的方法论:https://zhuanlan.zhihu.com/p/475615463

乔布斯在斯坦福大学毕业典礼的演讲:https://www.bilibili.com/video/BV1oW411h7Ea

子豪兄1024脱口秀-乔布斯传奇:https://www.bilibili.com/video/BV1Zf4y1g78Q

哥尼斯堡七桥问题:https://zhuanlan.zhihu.com/p/519123688

2022 IDEA大会|BIOS V2正式发布,数据驱动构建超级医学知识图谱:https://mp.weixin.qq.com/s/vuHGUtWbiIH-pJ6MZaxl5Q

总结

本篇博客首先介绍了图的广泛应用场景,引出了图是描述大自然的通用语言。然而现有的机器学习和深度学习方法不能有效利用图信息进行学习,从而引出了图深度学习的基本概念和难点。图深度学习广泛的应用在我们的学习生活中,蕴含了巨大的商业价值和科研价值,同时图深度学习可以和人工智能各方向结合(大模型、多模态、可信计算、NLP、情感计算),促进其它方向的发展。

猜你喜欢

转载自blog.csdn.net/qq_46378251/article/details/129012045