Pathview包教程|2.学习Pathview函数以及结果输出形式

之前我们对pathview包有了一个初步的了解,并学习了如何快速上手这个包,今天我们来进一步学习这个包的功能。

1.主函数pathveiw()

pathview()函数是包中最重要的函数,因此为了更熟练使用这个包,我们应该对这个函数做一个全面的了解。

该函数的主要参数如下:

pathview(gene.data = NULL,
         cpd.data = NULL, 
         pathway.id,
         species = "hsa", 
         kegg.dir = ".", 
         cpd.idtype = "kegg", 
         gene.idtype = "entrez", 
         gene.annotpkg = NULL, 
         min.nnodes = 3, 
         kegg.native = TRUE,
         map.null = TRUE, 
         expand.node = FALSE, 
         split.group = FALSE, 
         map.symbol = TRUE, 
         map.cpdname = TRUE, 
         node.sum = "sum", 
         discrete=list(gene=FALSE, cpd=FALSE), 
         limit = list(gene = 1, cpd = 1), 
         bins = list(gene = 10, cpd = 10), 
         both.dirs = list(gene = T, cpd = T),
         trans.fun = list(gene = NULL, cpd = NULL), 
         low = list(gene = "green", cpd = "blue"), 
         mid = list(gene = "gray", cpd = "gray"), 
         high = list(gene = "red", cpd = "yellow"), 
         na.col = "transparent", 
         ...)

我也对所有参数的含义做了简要注释,表格如下。大家可以快速浏览一遍,有个印象。在实际使用过程中或是看下面的讲解时对某些参数有疑惑,可以返回来看看。

参数

意义或用途

        gene.data = NULL,

输入的时数据。

向量(单样本)或类似矩阵的数据(多样本)。向量应该是数字,以基因ID作为命名,也可以是基因ID的字符。字符向量被视为离散或计数数据。

        cpd.data = NULL,

化合物的数据,与gene.data类似。ID要与KEGG compound ID相对应。

        pathway.id,

要展示的或要映射的通路,通常使用5个字符的KEGG ID

        species = "hsa",

物种信息,默认为人类

        kegg.dir = ".",

结果图保存的地址,默认为当前的工作路径

        cpd.idtype = "kegg",

化合物数据中使用的ID类型,默认为标准的KEGG化合物ID,包括化合物、聚糖以及药物的ID

        gene.idtype = "entrez",

基因数据中使用的基因ID类型,默认为标准的KEGG基因ID

        gene.annotpkg = NULL,

其他的基因注释包,用于ID转换,一般情况下不使用

        min.nnodes = 3,

通路图最小的节点数

        kegg.native = TRUE,

当为TRUE时,结果图是KEGG原始图,png格式;当为FALSE时,结果图是由Graphviz引擎绘制,pdf格式。 

        map.null = TRUE,

是否要在通路图上绘制NULL数据,当 kegg.native = TRUE才会产生影响

        expand.node = FALSE,

在 kegg.native = FALSE时,是否将多个基因节点变为一个基因节点,此节点会继承其它节点的所有关系

        split.group = FALSE,

在 kegg.native = FALSE时,是否将属于同一基因节点的基因分为数个节点

        map.symbol = TRUE,

在 kegg.native = FALSE时,在结果图中是否将ID转换为Symbol。在 kegg.native = TRUE时,默认使用KEGG ID

        map.cpdname = TRUE,

在 kegg.native = FALSE时,在结果图中是否将ID转换为标签。在 kegg.native = TRUE时,默认使用KEGG ID

        node.sum = "sum",

当多个基因或化合物对应同一个节点时,用什么方法处理数据。默认为求和。其他还有平均值或中位数等

        discrete=list(gene=FALSE, cpd=FALSE),

一个包含两个逻辑值的列表;取决于基因或化合物中的数据是连续性变量还是分离型变量

        limit = list(gene = 1, cpd = 1),

一个列表;决定基因和化合物数据在图像中的图例数值范围

        bins = list(gene = 10, cpd = 10),

一个列表;决定基因和化合物数据图例分成几度

        both.dirs = list(gene = T, cpd = T),

一个包含两个逻辑值的列表;取决于数据是单方向性(如0~1)的还是双方向性的(如-1~1)

        trans.fun = list(gene = list(gene = "gray", cpd = "gray"),

一个列表;决定如何处理基因和化合物数据,可以用log、abs函数,或其它自定义函数

        low = list(gene = "green", cpd = "blue"),

一个列表;决定了基因数据和化合物数据图例中最低值的颜色

        mid = list(gene = "gray", cpd = "gray"),

一个列表;决定了基因数据和化合物数据图例中中间值的颜色

        high = list(gene = "red", cpd = "yellow"),

一个列表;决定了基因数据和化合物数据图例中最高值的颜色

        na.col = "transparent",

NA数据的填充颜色


2.输出形式

Pathview在通路图数据的可视化时有两种输出格式,分别是原始的KEGG视图和Graphviz视图。

  • 前者将用户的数据呈现在原始的KEGG路径图上,因此很自然,更容易阅读,使用的也是默认的KEGG ID,输出的图像时PNG格式。

  • 后者使用Graphviz引擎布置路径图;因此可以更好地控制节点或边的属性和路径拓扑结构,输出的图像时PDF格式。在使用时可以根据实际需要选择合适的输出格式。

此外Pathview的绘图可以调整图层,来加速图像的生成。下面我们分别学习一下使用方法:

2.1two-layer graph,两个图层绘图

在之前的例子中,我们绘制的图像只有一个图层,节点颜色在原始KEGG图上被修改,而原始的KEGG节点标签(节点名称)则保持不变,即显示的是基因的KEGG ID。这样能使输出的图像最小,但是相对的计算时间就会变长。

如果我们不在意大小,只想快点看到结果,可以设置same.layer = FALSE参数,这样相应的节点颜色和标签会添加在另一个图层当中,速度有很大提升。此时图像上的的KEGG基因标签会变成gene symbols,也更符合我们的平时的习惯。

pv.out <- pathview(gene.data = gse16873.d[, 1], pathway.id = demo.paths$sel.paths[i],
 species = "hsa", out.suffix = "gse16873.2layer", kegg.native = T,
 same.layer = F)

在我们设置same.layer=FALSE后,结果如下:5ad8e5af038db626ff19972ebd2d28d0.png


2.2 Graphviz输出形式

除了最原始的KEGG形式的通路图,我们还可以使用Graphviz视图,设置kegg.native = FALSE即使用Graphvis。后者使用Graphviz引擎布置通路图;因此可以更好地控制节点或边的属性和路径拓扑结构。更重要的是,它的输出是PDF格式的向量图。代码如下:

#Graphviz view: gene data only
pv.out <- pathview(gene.data = gse16873.d[, 1], 
                   pathway.id = demo.paths$sel.paths[i], 
                   species = "hsa", 
                   out.suffix = "gse16873",
                   kegg.native = FALSE,                 #设置kegg.native = FALSE即使用Graphvis
                   sign.pos = demo.paths$spos[i])

结果图如下:

  • 在这个例子中,所有的内容同样是被放入到一个图层当中

  • 由于节省空间,默认是只显示了线条的图例

  • 如果相要单独显示节点的图例或是分开图层,同样设置same.layer=FALSE即可4e58fd05d723194f65565830e8ce4df3.png


2.2.1 split group

在Graphviz视图中,我们能对图像做更多的控制。比如我们可以将一群节点各自分开;或者将多个基因节点合成一个。这些分离或者聚合的节点会继承之前与未改变的节点间的连接线条。这样就可以得到一个基因或是蛋白质交互网络。只要设置split.group(单个基因节点拆分成数个)或是expand.node(多个基因节点合并)参数即可。

我们先只设置split.group = TRUE来看一下拆分含有多个基因的节点后的效果。

# split group
pv.out1 <- pathview(gene.data = gse16873.d[, 1], 
                   pathway.id = demo.paths$sel.paths[i],
                   species = "hsa", 
                   out.suffix = "gse16873.split", 
                   kegg.native = F,
                   sign.pos = demo.paths$spos[i], 
                   split.group = T)


> dim(pv.out1$plot.data.gene)
[1] 92 10

结果如下:b35fe8b203fbf6e3129e0d6f55e5b02d.png


2.2.2 split + expand.node

我们同时设置split.group = TRUEexpand.node = TRUE

# split + expand.node
pv.out2 <- pathview(gene.data = gse16873.d[, 1], 
                   pathway.id = demo.paths$sel.paths[i],
                   species = "hsa", 
                   out.suffix = "gse16873.split.expanded", 
                   kegg.native = F,
                   sign.pos = demo.paths$spos[i], 
                   split.group = T, 
                   expand.node = T)


> dim(pv.out2$plot.data.gene)
[1] 126  10

结果如下:f480bfd0832640810638c7347e2b39f4.png

注意在传统的KEGG通路图上,一个基因节点有时包含则多个有类似功能作用的基因或蛋白质,将它们合并到一起是为了图像简洁明了。所以pathview函数默认上不会将节点分开,而是通过总结基因数据再展示到对应节点上。使用者可以通过node.sum参数来定义整合这些在同一节点上的基因的数据的方法。

3. 小结

今天我们主要是对包中给的主函数pathview()做了一个全面的了解。此外我们还学习了Pathview包输出通路图时的两种形式:原始KEGG通路图和Graphviz格式的通路图。最后我们还学习了通路图拆分以及合并节点的方法。

猜你喜欢

转载自blog.csdn.net/weixin_45822007/article/details/122773778