「文献05」深度学习应用于基因组学的入门指导

日期：2019年2月2日——2019-Week5
分类：「综述+资源」
题目：A primer on deep learning in genomics
DOI: https://doi.org/10.1038/s41588-018-0295-5
杂志：Nature genetics，21 December 2018
关键词： Deep learning，genomics

深度学习是机器学习的一个变异，其使用神经网络从数据集中自动提取新的特征。目前成功应用于图像识别、机器人（如无人驾驶），在大数据研究中也发挥着重要的作用。随着测序技术的发展，生命组学的数据爆发式增加，将深度学习作为基因组学领域的工具是完全合适的，虽然目前仍然处于研究初期阶段，但是深度学习在癌症诊断和治疗、临床遗传学、作物改良、流行病学和公共卫生、人口遗传学、进化或系统发育分析以及功能基因组学等领域展现出巨大潜在应用价值。

这篇文章对深度学习在基因组学中的应用提供了一个入门指导，包括以下几方面内容：

深度学习的基本概念和方法
如何有效的使用深度学习
解读深度学习模型
深度学习在基因组中的应用
深度学习的工具资源
基于卷积神经网络预测DNA-binding motifs的交互教程

1. 深度学习的基本概念和方法

监督学习和无监督学习
机器学习的任务可以归结为两类：监督（supervised）和无监督（unsupervised）。监督学习的目标是通过一个带标签的训练集预测每个数据点的标签（分类）或者响应（回归）；无监督学习，像聚类和PCA，是学习数据本身的内在模式和特点。大多数机器学习的最终目标是优化模型，使其不仅适用于训练集，也适用于其他数据集，提高模型的普适性。
训练集、验证集和测试集
基于以上目标，数据通常分为三种类型：训练集、验证集和测试集。训练集用于调整模型参数，验证集用于选取最优模型，测试集用于评估模型的普适性效果。机器学习在模型灵活性和训练集数据量之间必须达到一个平衡。
深度学习
大型神经网络—深度学习的一种主要形式是机器学习算法的一类，可以用于预测和降维。用于基因组学中的深度学习和标准的机器学习方法的不同在于：深度学习模型有更高的能力和更多的灵活性。
神经网络
神经网络的起点是一个人工神经元，它以一个实数向量作为输入，然后计算这些值的加权平均值，然后进行非线性变换，可以得到一个简单的阈值。权重是训练期间学习的模型参数。神经网络的力量源于高度模块化和可组合单个神经元，一个神经元的输出可以直接作为另一个神经元的输入，神经元组合起来就形成一个神经网络。
神经网络的三个主要架构：前馈、卷积和递归
有三个常见的架构家族用于连接神经元网络化：前馈、卷积和递归（feed-forward, convolutional and recurrent）。
前馈是最简单的架构，第i层的每一个神经元只与第i+1层的神经元相连，并且所有的连接边缘都可以有不同的权重。前馈结构适用于输入数据特征之间没有特殊关系时的预测问题。
卷积神经网络（CNN，convolutional neural network）在输入矩阵中扫描一个神经元，在输入的每个位置，CNN计算局部加权和并产生一个输出值。这个过程类似于从DNA序列中获取motif时使用的位置权重矩阵。CNN适用于输入数据中某些空间不变的模式。
递归神经网络（RNN，Recurrent neural networks ) 适用于顺序或时间序列的数据。在序列中的每一点，可应用一个前馈或卷积的神经网络来产生一个内部信号，该信号也被送入RNN的下一步。RNN的隐藏层可以被视为内存状态，它保留以前观察到的序列中的信息，并在每个时间步骤中更新。
有一些用于无监督学习的神经网络结构，最常见的是执行非线性降维的自动编码器。

深度学习的工作流

相关术语：

2. 如何有效的使用深度学习

首先设计一个合适的训练数据集并选择合适的评价指标
需要领域的专业知识

深度学习的主要元素和指导：

大的训练集（通常数千个样本），去除混杂或污染
主要架构：feed-forward, convolutional and recurrent
大多数基因组数据不需要很深的网络
必须对数据的高精度保持警惕如由于不平衡或偏差使分类过于简单的
与简单的机器学习比较在同一数据集上的模型
深度学习可以实现高精度，但是解释的时候比标准的统计模型困难

3. 解读深度学习模型

在基因组学中的应用，研究者更关心的是预测模型揭示的生物机制。
如对于CNN来说，还可以可视化每个卷积过滤器作为热图或位置权重矩阵图像，这些可视化有助于了解网络正在学习的特征。

4.深度学习在基因组中的应用

染色质可及性和转录调控

Khodabandelou, G., Mozziconacci, J. & Routhier, E. Genome functional
annotation using deep convolutional neural network. Preprint at https://www.
biorxiv.org/content/early/2018/05/25/330308 (2018).

Kelley, D. R., Snoek, J. & Rinn, J. L. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. 26, 990–999 (2016).

Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).

Li, Y., Shi, W. & Wasserman, W. W. Genome-wide prediction of cis-regulatory regions using supervised deep learning methods. BMC Bioinformatics 19,202 (2018).

从基因型数据预测基因表达的模型

Xie, R., Wen, J., Quitadamo, A., Cheng, J. & Shi, X. A deep auto-encoder
model for gene expression prediction. BMC Genomics 18 (Suppl. 9),
845 (2017)

研究剪切模式模型

Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative
splicing. Bioinformatics 33, i274–i282 (2017).

鉴定lncRNA

Tripathi, R., Patel, S., Kumari, V., Chakraborty, P. & Varadwaj, P. K.
DeepLNC, a long non-coding RNA prediction tool using deep neural
network. Netw. Model. Anal. Health Inform. Bioinform. 5, 21 (2016).

Yu, N., Yu, Z. & Pan, Y. A deep learning method for lincRNA detection using auto-encoder algorithm. BMC Bioinformatics 18 (Suppl. 15), 511 (2017).

Hill, S. T. et al. A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential. Nucleic Acids Res. 46, 8105–8113 (2018).

研究单细胞中调控机制，如甲基化，亚型分析

Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).

Angermueller, C., Lee, H. J., Reik, W. & Stegle, O. DeepCpG: accurate
prediction of single-cell DNA methylation states using deep learning. Genome
Biol. 18, 67 (2017).

Shaham, U. et al. Removal of batch effects using distribution-matching
residual networks. Bioinformatics 33, 2539–2546 (2017).

Lin, C., Jain, S., Kim, H. & Bar-Joseph, Z. Using neural networks for reducing the dimensions of single-cell RNA-Seq data. Nucleic Acids Res. 45, e156 (2017).

基因组高级结构

Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).

Schreiber, J., Libbrecht, M., Bilmes, J. & Noble, W. Nucleotide sequence and DNaseI sensitivity are predictive of 3D chromatin architecture. Preprint at
https://www.biorxiv.org/content/early/2017/01/30/103614 (2017).

基因组变异
如：DeepVariant，从短读长序列中利用CNN找变异

Poplin, R. et al. Creating a universal SNP and small indel variant caller with
deep neural networks. Preprint at https://www.biorxiv.org/content/
early/2018/03/20/092890 (2017).

还有基于长读长的数据利用深度学习进行base calling的技术，如：

Boža, V., Brejová, B. & Vinař, T. DeepNano: deep recurrent neural networks for base calling in MinION nanopore reads. PLoS One 12, e0178751 (2017).

Teng, H., Hall, M.B., Duarte, T., Cao, M.D. & Coin, L. Chiron: translating

nanopore raw signal directly into nucleotide sequence using deep learning.
Preprint at https://www.biorxiv.org/content/early/2017/08/23/179531 (2017).

预测非编码元件变异的功能结果
DeepSEA除了可以预测非编码元件变异的功能结果，还可以用于自闭症谱系障碍的调节变异的研究。
ExPecto可以从200多种组织和细胞类型中预测基因表达水平和序列的变异效应

Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).

Zhou, J. et al. Whole-genome deep learning analysis reveals causal role of
noncoding mutations in autism. Preprint at https://www.biorxiv.org/content/
early/2018/05/11/319681 (2018).

Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant
effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).

5. 深度学习的工具资源

6. 基于卷积神经网络预测DNA-binding motifs的交互教程

https://colab.research.google.com/drive/17E4h5aAOioh5DiTo7MZg4hpL6Z_0FyWr