WHISTLE特征提取

论文：

发表期刊:Nucleic Acids Research(JCR-Q1,11.5)

位点预测任务传统的特征：Sequence-derived feature

WHISTLE中加入的新的特征： Genome-derived features

WHISTLE集成35个Genome-derived features与传统Sequence-derived feature，重建了m6A表转录组的高精度地图

Genome-derived features：

基于序列特征本身并不能完全捕获RNA修饰拓扑结构的属性。各种研究已经证实了m6A RNA甲基化的生物学意义，包括在生物钟中的作用、调控mRNA翻译、热休克反应、microRNA (miRNA)处理、DNA损伤反应、RNA -蛋白相互作用和调控RNA稳定性。传统的位点预测方法只基于序列衍生信息(sequence-derived information)—即使使用了二级结构或其他高阶特征，信息仍然是直接从序列中提取的，而不考虑其他潜在的有用的基因特征。虽然序列信息可能起着核心作用，但是其他基因组特征可能也有助于预测m6A位点，因此我们产生了35个额外的基因组特征，可能有助于预测。

序列特征通过三种不同的结构化学性质:环结构、官能团和氢键进行编码核苷酸序

WHISTLE从多基因组特征中预测全转录组whole-transcriptome m6A位点，该框架基于多种基因组特征提取了一套完整的的领域知识，并将其与传统的序列衍生特征整合，进而高精度的预测m6A位点。然后，“内疚关联”guilt-by-association原则被应用于通过整合基因表达谱、RNA甲基化谱和PPI网络，进一步注释每个RNA methylation位点的功能相关性

WhistleR包使用

WhistleR: extract genomic features for predictive modeling in genomics

该包目前实现了两种类型的特征提取模块:基因组衍生特征和序列衍生特征。前者是通过基因组属性与基因组区域相互作用获得的特征，后者包括one-hot编码的核苷酸序列(nucleotide compositions)或通过伪核苷酸组合(PesTNC)进行编码。

WhistleR安装：使用R devel版 R>=4.1，可以通过Github安装

可以将Granges格式的文件作为输入

1.1.1 Genome-derived features encoding(基因组衍生特征编码)

基因组衍生特征编码为基因组区域(例如，从基因注释中提取的区域:5'UTR, CDS, 3'UTR)与基因组间的特性(例如，x长度，GC含量)之间的相互作用，因此我们将这种特征编码方法命名为区域特性特征。

1.1.2 Sequence-derived feature encoding(序列衍生特征编码)

1.2 WhistleR安装

if(!requireNamespace("BiocManager",quietly = TRUE))

install.packages("BiocManager")

BiocManager::install("WhistleR")

安装流程：

先安装R devel版 R>=4.1

下载：https://cran.r-project.org/bin/windows/base/rdevel.html

如果使用github安装还需安装devtools

通过install.packages("devtools")或者

if(!requireNamespace("BiocManager", quietly = TRUE))

install.packages("BiocManager")

BiocManager::install("TxDb.Hsapiens.UCSC.hg19.knownGene")

安装

TxDb.Hsapiens.UCSC.hg19.knownGene

phastCons100way.UCSC.hg19

BSgenome.Hsapiens.UCSC.hg19

1.3工作流程

1.3.1从文件中读取基于范围的注释

如果目标注释存储在BED、GTF或GFF文件中，则可以使用rtracklayer包中的import()函数轻松地将其加载到R中。文件的格式可以直接从文件扩展名获得，也可以通过format参数手动指定。import()的输出是一个GRanges对象，可以直接作为特征提取函数的输入。

bed_dir <- system.file("extdata", "GSE63753.bed",

package = "WhistleR")

X <- rtracklayer::import(bed_dir)

当加载以其他表格格式保存的注释文件时，例如TXT或CSV文件，应该首先使用read.table()或read.csv()将表加载到R中。然后，可以使用在GenomicRanges包中定义的构造函数GRanges()从加载的data.frame中构造GRanges;该函数需要提供seqname(染色体信息)、注释的开始、结束/宽度和链的属性。

1.3.2 Genome-derived features基因组衍生特征

在WhistleR的标准工作流程中，我们将首先使用genomeDerivedFeatures()函数来提取基因组衍生的特征。一般来说，函数返回的特征矩阵采用1.1.1中描述的区域属性编码方法进行编码，并从函数参数中指定的标注对象中提取相应的区域和属性。本节的以下部分将解释基因组特征提取的具体用法和基本原理。

首先加载特征提取所需的包

library(WhistleR)

library(TxDb.Hsapiens.UCSC.hg19.knownGene) ##Txdb for transcript annotation

library(BSgenome.Hsapiens.UCSC.hg19) ##BSgenome for genome sequence

library(phastCons100way.UCSC.hg19) ##GScores for genomic scores

将注释包的变量更改为简洁的名称:
txdb_hg19 <- TxDb.Hsapiens.UCSC.hg19.knownGene

genome_hg19 <- BSgenome.Hsapiens.UCSC.hg19

phastCons_hg19 <- phastCons100way.UCSC.hg19

接下来，提取目标GRanges对象的基因组衍生特征。每个列的详细结构可以通过str()函数显示(在文档中不计算)。

RPF <- genomeDerivedFeatures(X,

## Providing gene annotation

transcriptdb=txdb_hg19,

## Providing genome sequence

sequence=genome_hg19,

## Providing Phastcons scores

gscores=phastCons_hg19,

## Calculate clustering metrics on X itself

clusteringY=X)

## Display the outcomes of feature extraction

str(RPF)

表1总结了从转录数据库指定的转录注释中提取的默认基因组区域

表1中列出的所有基因区域都是使用包基因组特征中定义的函数计算的。默认情况下，获得的启动子是转录起始位点(transcription start sites, TSS)的上游2000bp和下游200bp。

WHISTLE特征提取

猜你喜欢