PPI数据集

PPIProtein–protein interactions)蛋白质交互作用

下载地址:http://snap.stanford.edu/graphsage/ppi.zip

PPI 网络是蛋白质相互作用(Protein-Protein Interaction,PPI)网络的简称,在GCN中主要用于节点分类任务

PPI是指两种或以上的蛋白质结合的过程,通常旨在执行其生化功能。

一般地,如果两个蛋白质共同参与一个生命过程或者协同完成某一功能,都被看作这两个蛋白质之间存在相互作用。多个蛋白质之间的复杂的相互作用关系可以用PPI网络来描述。

PPI数据集共24张图,每张图对应不同的人体组织,平均每张图有2371个节点,共56944个节点818716条边,每个节点特征长度为50,其中包含位置基因集,基序集和免疫学特征。基因本体基作为label(总共121个),label不是one-hot编码。

下载地址:http://snap.stanford.edu/graphsage/ppi.zip

下载后解压文件后如图所示,

valid_feats.npy文件保存节点的特征,shape为(56944, 50)(节点数目,特征维度),值为0或1,且1的数目稀少

ppi-class_map.json为节点的label文件,shape为(121, 56944),每个节点的label为121维

ppi-G.json文件为节点和链接的描述信息,节点:{"test": true, "id": 56708, "val": false}, 表示节点id为56708的节点是否为test集或者val集,链接:"links": [{"source": 0, "target": 372}, {"source": 0, "target": 1101}, 表示节点id为0的节点和为1101的节点之间有links,

ppi-walks.txt文件中为链接信息

ppi-id_map.json文件为节点id信息

猜你喜欢

转载自blog.csdn.net/ziqingnian/article/details/112979175
PPI